AI 평가 그래프의 진실, 지수 성장은 착각일까
METR의 AI 능력 평가 그래프가 보여주는 것과 숨기는 것. 클로드 4.5가 5시간짜리 작업을 독립적으로 완수했다는 발표 뒤에 숨은 복잡한 진실을 파헤친다.
OpenAI, 구글, Anthropic이 새로운 대형 언어모델을 발표할 때마다, AI 업계는 숨을 죽인다. 그리고 METR(Model Evaluation & Threat Research)이라는 AI 연구 비영리 단체가 작년 3월부터 공개해온 한 그래프를 업데이트할 때까지 긴장을 늦추지 않는다.
이 그래프는 AI 담론에서 핵심적인 역할을 해왔다. 특정 AI 능력들이 지수적 속도로 발전하고 있다는 것을 시사하며, 최근 모델들은 이미 인상적인 트렌드를 뛰어넘는 성과를 보이고 있다고 말한다.
클로드 4.5의 충격적 성과
지난 11월 말 출시된 Anthropic의 최강 모델 클로드 오푸스 4.5가 대표적인 사례다. 12월, METR은 이 모델이 인간이라면 5시간 정도 걸릴 작업을 독립적으로 완수할 수 있다고 발표했다. 지수적 트렌드가 예측했던 것보다 훨씬 뛰어난 성과였다.
하지만 이런 극적인 반응들이 암시하는 것보다 진실은 훨씬 복잡하다. 그래프가 보여주는 것과 숨기는 것 사이에는 중요한 차이가 있다.
평가의 함정들
AI 능력 평가에는 여러 함정이 도사리고 있다. 첫째, 벤치마크 테스트는 실제 업무 환경과 다르다. 통제된 환경에서의 성과가 현실 세계에서도 그대로 재현될지는 별개 문제다.
둘째, '독립적 완수'라는 표현 자체가 모호하다. AI가 작업을 완전히 혼자 해낸 것인지, 아니면 인간의 개입 없이 시작부터 끝까지 진행했다는 뜻인지 명확하지 않다. 실제로는 사전 프롬프팅이나 특정 조건 설정이 필요할 수 있다.
셋째, 성공률의 문제다. 한 번의 성공적인 시연이 일관된 성능을 보장하지는 않는다. 100번 중 1번 성공하는 것과 10번 중 9번 성공하는 것은 완전히 다른 의미다.
한국 기업들의 대응 전략
국내 기업들도 이런 평가 지표에 주목하고 있다. 네이버는 자체 AI 모델 하이퍼클로바X의 성능을 국제 벤치마크로 측정하고 있고, 삼성전자는 AI 반도체 개발에 이런 성능 지표를 반영하고 있다.
하지만 단순히 벤치마크 점수를 쫓기보다는, 실제 비즈니스 가치를 창출할 수 있는 AI 능력에 집중해야 한다는 목소리가 높다. 고객 상담, 문서 작성, 코드 생성 등 구체적인 업무에서의 실용성이 더 중요하다는 것이다.
기자
관련 기사
2026년 미국 졸업식에서 AI를 찬양한 기업인들이 학생들의 야유를 받았다. 취업 절벽 앞에 선 청년들의 분노가 바이럴 영상으로 번지며 AI 낙관론에 균열을 내고 있다.
필리핀 가상 비서들이 AI를 이용해 LinkedIn 임원 계정을 대신 운영하는 산업의 실태. 하루 30~40개 댓글, 가짜 팔로워, '좋아요' 품앗이까지 — 직업적 진정성의 의미를 묻는다.
미국 대학 졸업식에서 AI를 언급한 연사들이 학생들의 거센 야유를 받았다. 단순한 해프닝이 아니다. 청년 세대가 AI에 보내는 불신의 신호를 읽어야 한다.
xAI와 SpaceX 합병 후 50명 이상의 연구원과 엔지니어가 이탈한 SpaceXAI. 핵심 사전학습 팀이 붕괴 직전에 놓인 지금, 머스크의 AI 야망은 어디로 향하는가?
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요