AI가 자신의 행동을 설명할 수 있다면
가이드랩스가 공개한 Steerling-8B는 모든 출력을 학습 데이터까지 추적할 수 있는 '해석 가능한 AI'다. 블랙박스 AI 시대가 끝나고 있을까?
ChatGPT는 왜 그런 답을 했을까?
"왜 이런 결과가 나왔지?" AI를 사용해본 사람이라면 한 번쯤 품어봤을 의문이다. 특히 수십억 개의 매개변수를 가진 거대 언어모델(LLM)에서는 더욱 그렇다. 샌프란시스코 스타트업 가이드랩스(Guide Labs)가 월요일 공개한 Steerling-8B는 이 '블랙박스' 문제에 대한 새로운 해답을 제시한다.
이 80억 매개변수 모델의 특별한 점은 모든 토큰(단어 단위)이 어떤 학습 데이터에서 나왔는지 추적할 수 있다는 것이다. 단순히 팩트의 출처를 찾는 것부터 모델이 유머나 성별을 어떻게 이해하는지까지 파악할 수 있다.
기존 방식의 한계를 뒤집다
가이드랩스 CEO 줄리어스 아데바요는 MIT에서 박사과정 중 2020년 발표한 논문에서 기존 AI 해석 방법들의 신뢰성 문제를 지적했다. "현재 모델로도 할 수 있지만 매우 취약하다"며 "1조 가지 방법으로 성별을 인코딩할 수 있고, 그 중 10억 가지를 실제로 사용한다면, 모든 것을 찾아서 켜고 끌 수 있어야 한다"고 설명했다.
기존 방식은 완성된 모델을 '신경과학'처럼 분석했다면, 가이드랩스는 처음부터 해석 가능하게 설계했다. 모델에 '개념 레이어'를 삽입해 데이터를 추적 가능한 범주로 분류하는 방식이다. 더 많은 사전 데이터 주석 작업이 필요하지만, 다른 AI 모델의 도움으로 이를 해결했다.
창발적 능력은 여전히 살아있다
해석 가능성을 위해 AI의 '창발적 행동'을 포기해야 하는 건 아닐까? 아데바요는 그렇지 않다고 단언한다. 팀은 모델이 스스로 발견한 '양자컴퓨팅' 같은 개념들을 추적하고 있다. 기존 모델 대비 90% 성능을 달성하면서도 더 적은 학습 데이터를 사용한다고 밝혔다.
Y컴비네이터를 거쳐 2024년 11월이니셜라이즈드 캐피털로부터 900만 달러 시드 투자를 받은 가이드랩스는 다음 단계로 더 큰 모델 구축과 API 서비스 제공을 계획하고 있다.
규제 시대, 설명 가능한 AI가 필수가 될까?
아데바요가 제시하는 활용 사례는 구체적이다. 소비자용 LLM에서는 저작권 자료 사용을 차단하거나 폭력, 약물 남용 관련 출력을 더 정교하게 통제할 수 있다. 금융업계에서는 대출 심사 모델이 신용기록은 고려하되 인종은 배제하도록 보장할 수 있다.
과학 연구 분야에서도 필요성이 크다. 단백질 접힘 예측에서 딥러닝이 큰 성과를 거뒀지만, 과학자들은 '왜' 그런 조합이 성공했는지 알아야 한다.
국내에서도 관련 움직임이 감지된다. 네이버의 하이퍼클로바X나 카카오브레인의 KoGPT 등 한국어 LLM들이 금융, 의료 등 규제 산업으로 확장하려면 해석 가능성이 핵심 요구사항이 될 전망이다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
트럼프 행정부가 월가 은행들에 Anthropic의 Mythos AI 모델 테스트를 권고했다. 동시에 같은 회사를 법원에서 상대하고 있는 아이러니한 상황, 그 이면을 들여다본다.
AGI, LLM, 환각, 추론 모델… AI 업계가 쏟아내는 전문 용어들. 단순한 어휘 문제가 아니라, 기술 권력이 작동하는 방식의 문제입니다. 핵심 AI 용어 해설과 그 이면의 의미.
깃허브 코파일럿에서 바이브코딩까지, AI 코딩 도구의 5년 진화가 소프트웨어 개발자의 역할을 근본적으로 바꾸고 있다. 한국 개발자와 IT 산업에 미치는 영향을 분석한다.
AI 생성 합성 미디어가 전쟁 정보전의 새 무기로 부상했다. 레고 스타일 선전 영상부터 단 1인치 조작 사진까지, 진짜와 가짜의 경계가 무너지는 지금 우리는 무엇을 믿어야 하는가.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요