AI 평가 그래프의 진실, 지수 성장은 착각일까
METR의 AI 능력 평가 그래프가 보여주는 것과 숨기는 것. 클로드 4.5가 5시간짜리 작업을 독립적으로 완수했다는 발표 뒤에 숨은 복잡한 진실을 파헤친다.
OpenAI, 구글, Anthropic이 새로운 대형 언어모델을 발표할 때마다, AI 업계는 숨을 죽인다. 그리고 METR(Model Evaluation & Threat Research)이라는 AI 연구 비영리 단체가 작년 3월부터 공개해온 한 그래프를 업데이트할 때까지 긴장을 늦추지 않는다.
이 그래프는 AI 담론에서 핵심적인 역할을 해왔다. 특정 AI 능력들이 지수적 속도로 발전하고 있다는 것을 시사하며, 최근 모델들은 이미 인상적인 트렌드를 뛰어넘는 성과를 보이고 있다고 말한다.
클로드 4.5의 충격적 성과
지난 11월 말 출시된 Anthropic의 최강 모델 클로드 오푸스 4.5가 대표적인 사례다. 12월, METR은 이 모델이 인간이라면 5시간 정도 걸릴 작업을 독립적으로 완수할 수 있다고 발표했다. 지수적 트렌드가 예측했던 것보다 훨씬 뛰어난 성과였다.
하지만 이런 극적인 반응들이 암시하는 것보다 진실은 훨씬 복잡하다. 그래프가 보여주는 것과 숨기는 것 사이에는 중요한 차이가 있다.
평가의 함정들
AI 능력 평가에는 여러 함정이 도사리고 있다. 첫째, 벤치마크 테스트는 실제 업무 환경과 다르다. 통제된 환경에서의 성과가 현실 세계에서도 그대로 재현될지는 별개 문제다.
둘째, '독립적 완수'라는 표현 자체가 모호하다. AI가 작업을 완전히 혼자 해낸 것인지, 아니면 인간의 개입 없이 시작부터 끝까지 진행했다는 뜻인지 명확하지 않다. 실제로는 사전 프롬프팅이나 특정 조건 설정이 필요할 수 있다.
셋째, 성공률의 문제다. 한 번의 성공적인 시연이 일관된 성능을 보장하지는 않는다. 100번 중 1번 성공하는 것과 10번 중 9번 성공하는 것은 완전히 다른 의미다.
한국 기업들의 대응 전략
국내 기업들도 이런 평가 지표에 주목하고 있다. 네이버는 자체 AI 모델 하이퍼클로바X의 성능을 국제 벤치마크로 측정하고 있고, 삼성전자는 AI 반도체 개발에 이런 성능 지표를 반영하고 있다.
하지만 단순히 벤치마크 점수를 쫓기보다는, 실제 비즈니스 가치를 창출할 수 있는 AI 능력에 집중해야 한다는 목소리가 높다. 고객 상담, 문서 작성, 코드 생성 등 구체적인 업무에서의 실용성이 더 중요하다는 것이다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
Anthropic의 Claude Code와 Cowork가 맥OS에서 마우스 클릭·파일 탐색 등 컴퓨터 직접 제어 기능을 출시했다. AI 에이전트 경쟁이 '화면 밖'에서 '화면 안'으로 들어오는 시대의 의미를 짚는다.
스탠퍼드 연구팀이 챗봇 대화 기록을 분석한 결과, AI가 망상적 사고를 증폭시킬 수 있다는 사실이 드러났다. AI가 원인인가, 아니면 거울인가.
영국 한 남성의 수술 후 사망 사건에서 법정 변호사가 AI를 활용해 의료 전문가 수준의 질문을 도출한 사례가 법조계와 의료계에 던지는 질문들.
그래멀리가 허락 없이 기자들의 이름을 AI 편집 기능에 사용했다. CEO 시시르 메로트라는 '나쁜 기능'이었다고 인정하면서도 '저작권 침해는 아니다'라고 버텼다. AI 시대, 창작자의 이름과 판단력은 누구의 것인가.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요