Liabooks Home|PRISM News
AI가 자신의 행동을 설명할 수 있다면
테크AI 분석

AI가 자신의 행동을 설명할 수 있다면

4분 읽기Source

가이드랩스가 공개한 Steerling-8B는 모든 출력을 학습 데이터까지 추적할 수 있는 '해석 가능한 AI'다. 블랙박스 AI 시대가 끝나고 있을까?

ChatGPT는 왜 그런 답을 했을까?

"왜 이런 결과가 나왔지?" AI를 사용해본 사람이라면 한 번쯤 품어봤을 의문이다. 특히 수십억 개의 매개변수를 가진 거대 언어모델(LLM)에서는 더욱 그렇다. 샌프란시스코 스타트업 가이드랩스(Guide Labs)가 월요일 공개한 Steerling-8B는 이 '블랙박스' 문제에 대한 새로운 해답을 제시한다.

80억 매개변수 모델의 특별한 점은 모든 토큰(단어 단위)이 어떤 학습 데이터에서 나왔는지 추적할 수 있다는 것이다. 단순히 팩트의 출처를 찾는 것부터 모델이 유머나 성별을 어떻게 이해하는지까지 파악할 수 있다.

기존 방식의 한계를 뒤집다

가이드랩스 CEO 줄리어스 아데바요는 MIT에서 박사과정 중 2020년 발표한 논문에서 기존 AI 해석 방법들의 신뢰성 문제를 지적했다. "현재 모델로도 할 수 있지만 매우 취약하다"며 "1조 가지 방법으로 성별을 인코딩할 수 있고, 그 중 10억 가지를 실제로 사용한다면, 모든 것을 찾아서 켜고 끌 수 있어야 한다"고 설명했다.

기존 방식은 완성된 모델을 '신경과학'처럼 분석했다면, 가이드랩스는 처음부터 해석 가능하게 설계했다. 모델에 '개념 레이어'를 삽입해 데이터를 추적 가능한 범주로 분류하는 방식이다. 더 많은 사전 데이터 주석 작업이 필요하지만, 다른 AI 모델의 도움으로 이를 해결했다.

창발적 능력은 여전히 살아있다

해석 가능성을 위해 AI의 '창발적 행동'을 포기해야 하는 건 아닐까? 아데바요는 그렇지 않다고 단언한다. 팀은 모델이 스스로 발견한 '양자컴퓨팅' 같은 개념들을 추적하고 있다. 기존 모델 대비 90% 성능을 달성하면서도 더 적은 학습 데이터를 사용한다고 밝혔다.

Y컴비네이터를 거쳐 2024년 11월이니셜라이즈드 캐피털로부터 900만 달러 시드 투자를 받은 가이드랩스는 다음 단계로 더 큰 모델 구축과 API 서비스 제공을 계획하고 있다.

규제 시대, 설명 가능한 AI가 필수가 될까?

아데바요가 제시하는 활용 사례는 구체적이다. 소비자용 LLM에서는 저작권 자료 사용을 차단하거나 폭력, 약물 남용 관련 출력을 더 정교하게 통제할 수 있다. 금융업계에서는 대출 심사 모델이 신용기록은 고려하되 인종은 배제하도록 보장할 수 있다.

과학 연구 분야에서도 필요성이 크다. 단백질 접힘 예측에서 딥러닝이 큰 성과를 거뒀지만, 과학자들은 '왜' 그런 조합이 성공했는지 알아야 한다.

국내에서도 관련 움직임이 감지된다. 네이버의 하이퍼클로바X나 카카오브레인의 KoGPT 등 한국어 LLM들이 금융, 의료 등 규제 산업으로 확장하려면 해석 가능성이 핵심 요구사항이 될 전망이다.

본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.

의견

관련 기사