AI가 자신의 행동을 설명할 수 있다면
가이드랩스가 공개한 Steerling-8B는 모든 출력을 학습 데이터까지 추적할 수 있는 '해석 가능한 AI'다. 블랙박스 AI 시대가 끝나고 있을까?
ChatGPT는 왜 그런 답을 했을까?
"왜 이런 결과가 나왔지?" AI를 사용해본 사람이라면 한 번쯤 품어봤을 의문이다. 특히 수십억 개의 매개변수를 가진 거대 언어모델(LLM)에서는 더욱 그렇다. 샌프란시스코 스타트업 가이드랩스(Guide Labs)가 월요일 공개한 Steerling-8B는 이 '블랙박스' 문제에 대한 새로운 해답을 제시한다.
이 80억 매개변수 모델의 특별한 점은 모든 토큰(단어 단위)이 어떤 학습 데이터에서 나왔는지 추적할 수 있다는 것이다. 단순히 팩트의 출처를 찾는 것부터 모델이 유머나 성별을 어떻게 이해하는지까지 파악할 수 있다.
기존 방식의 한계를 뒤집다
가이드랩스 CEO 줄리어스 아데바요는 MIT에서 박사과정 중 2020년 발표한 논문에서 기존 AI 해석 방법들의 신뢰성 문제를 지적했다. "현재 모델로도 할 수 있지만 매우 취약하다"며 "1조 가지 방법으로 성별을 인코딩할 수 있고, 그 중 10억 가지를 실제로 사용한다면, 모든 것을 찾아서 켜고 끌 수 있어야 한다"고 설명했다.
기존 방식은 완성된 모델을 '신경과학'처럼 분석했다면, 가이드랩스는 처음부터 해석 가능하게 설계했다. 모델에 '개념 레이어'를 삽입해 데이터를 추적 가능한 범주로 분류하는 방식이다. 더 많은 사전 데이터 주석 작업이 필요하지만, 다른 AI 모델의 도움으로 이를 해결했다.
창발적 능력은 여전히 살아있다
해석 가능성을 위해 AI의 '창발적 행동'을 포기해야 하는 건 아닐까? 아데바요는 그렇지 않다고 단언한다. 팀은 모델이 스스로 발견한 '양자컴퓨팅' 같은 개념들을 추적하고 있다. 기존 모델 대비 90% 성능을 달성하면서도 더 적은 학습 데이터를 사용한다고 밝혔다.
Y컴비네이터를 거쳐 2024년 11월이니셜라이즈드 캐피털로부터 900만 달러 시드 투자를 받은 가이드랩스는 다음 단계로 더 큰 모델 구축과 API 서비스 제공을 계획하고 있다.
규제 시대, 설명 가능한 AI가 필수가 될까?
아데바요가 제시하는 활용 사례는 구체적이다. 소비자용 LLM에서는 저작권 자료 사용을 차단하거나 폭력, 약물 남용 관련 출력을 더 정교하게 통제할 수 있다. 금융업계에서는 대출 심사 모델이 신용기록은 고려하되 인종은 배제하도록 보장할 수 있다.
과학 연구 분야에서도 필요성이 크다. 단백질 접힘 예측에서 딥러닝이 큰 성과를 거뒀지만, 과학자들은 '왜' 그런 조합이 성공했는지 알아야 한다.
국내에서도 관련 움직임이 감지된다. 네이버의 하이퍼클로바X나 카카오브레인의 KoGPT 등 한국어 LLM들이 금융, 의료 등 규제 산업으로 확장하려면 해석 가능성이 핵심 요구사항이 될 전망이다.
기자
관련 기사
AI 붐 속에서 비AI 스타트업 Lucra Sports가 Cathie Wood의 ARK Invest를 시리즈B 리드 투자자로 유치한 방법. 다트바에서 시작된 네트워킹과 역발상 피칭 전략의 실체.
2026년 미국 졸업식에서 AI를 찬양한 기업인들이 학생들의 야유를 받았다. 취업 절벽 앞에 선 청년들의 분노가 바이럴 영상으로 번지며 AI 낙관론에 균열을 내고 있다.
필리핀 가상 비서들이 AI를 이용해 LinkedIn 임원 계정을 대신 운영하는 산업의 실태. 하루 30~40개 댓글, 가짜 팔로워, '좋아요' 품앗이까지 — 직업적 진정성의 의미를 묻는다.
미국 대학 졸업식에서 AI를 언급한 연사들이 학생들의 거센 야유를 받았다. 단순한 해프닝이 아니다. 청년 세대가 AI에 보내는 불신의 신호를 읽어야 한다.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요