AI 평가 그래프의 진실, 지수 성장은 착각일까

METR의 AI 능력 평가 그래프가 보여주는 것과 숨기는 것. 클로드 4.5가 5시간짜리 작업을 독립적으로 완수했다는 발표 뒤에 숨은 복잡한 진실을 파헤친다.

OpenAI, 구글, Anthropic이 새로운 대형 언어모델을 발표할 때마다, AI 업계는 숨을 죽인다. 그리고 METR(Model Evaluation & Threat Research)이라는 AI 연구 비영리 단체가 작년 3월부터 공개해온 한 그래프를 업데이트할 때까지 긴장을 늦추지 않는다.

이 그래프는 AI 담론에서 핵심적인 역할을 해왔다. 특정 AI 능력들이 지수적 속도로 발전하고 있다는 것을 시사하며, 최근 모델들은 이미 인상적인 트렌드를 뛰어넘는 성과를 보이고 있다고 말한다.

클로드 4.5의 충격적 성과

지난 11월 말 출시된 Anthropic의 최강 모델 클로드 오푸스 4.5가 대표적인 사례다. 12월, METR은 이 모델이 인간이라면 5시간 정도 걸릴 작업을 독립적으로 완수할 수 있다고 발표했다. 지수적 트렌드가 예측했던 것보다 훨씬 뛰어난 성과였다.

하지만 이런 극적인 반응들이 암시하는 것보다 진실은 훨씬 복잡하다. 그래프가 보여주는 것과 숨기는 것 사이에는 중요한 차이가 있다.

평가의 함정들

AI 능력 평가에는 여러 함정이 도사리고 있다. 첫째, 벤치마크 테스트는 실제 업무 환경과 다르다. 통제된 환경에서의 성과가 현실 세계에서도 그대로 재현될지는 별개 문제다.

둘째, '독립적 완수'라는 표현 자체가 모호하다. AI가 작업을 완전히 혼자 해낸 것인지, 아니면 인간의 개입 없이 시작부터 끝까지 진행했다는 뜻인지 명확하지 않다. 실제로는 사전 프롬프팅이나 특정 조건 설정이 필요할 수 있다.

셋째, 성공률의 문제다. 한 번의 성공적인 시연이 일관된 성능을 보장하지는 않는다. 100번 중 1번 성공하는 것과 10번 중 9번 성공하는 것은 완전히 다른 의미다.

한국 기업들의 대응 전략

국내 기업들도 이런 평가 지표에 주목하고 있다. 네이버는 자체 AI 모델 하이퍼클로바X의 성능을 국제 벤치마크로 측정하고 있고, 삼성전자는 AI 반도체 개발에 이런 성능 지표를 반영하고 있다.

하지만 단순히 벤치마크 점수를 쫓기보다는, 실제 비즈니스 가치를 창출할 수 있는 AI 능력에 집중해야 한다는 목소리가 높다. 고객 상담, 문서 작성, 코드 생성 등 구체적인 업무에서의 실용성이 더 중요하다는 것이다.

클로드 4.5의 충격적 성과

평가의 함정들

한국 기업들의 대응 전략

의견

관련 기사