아티피셜 애널리시스 인텔리전스 인덱스 v4.0: AI 평가 기준이 '업무 수행'으로 이동하다

아티피셜 애널리시스가 발표한 인텔리전스 인덱스 v4.0은 AI 평가 기준을 실무 업무 수행 능력으로 전환했습니다. GPT-5.2와 클로드 4.5의 성적을 확인하세요.

이제 AI의 똑똑함은 시험 점수가 아니라 '돈이 되는 일을 얼마나 잘하느냐'로 증명해야 합니다. 독립 AI 벤치마크 기관인 아티피셜 애널리시스(Artificial Analysis)가 현지시간 월요일, 업계의 표준으로 통하던 인텔리전스 인덱스의 대대적인 개편안인 v4.0을 발표했습니다. 이번 개편은 기존 모델들이 이미 만점에 가까운 점수를 기록하며 변별력을 상실한 '벤치마크 포화' 상태를 해결하기 위한 조치입니다.

인텔리전스 인덱스 v4.0: 단순 암기에서 실전 업무 능력으로

새로운 인텔리전스 인덱스 v4.0은 에이전트, 코딩, 과학적 추론, 일반 지식 등 10가지 평가 항목을 도입했습니다. 특히 눈에 띄는 변화는 MMLU-Pro, AIME 2025 등 기존의 주요 지표들을 삭제했다는 점입니다. 대신 AI가 실제 업무 현장에서 문서를 만들고, 슬라이드를 구성하며, 복잡한 스프레드시트를 다루는 능력을 측정하는 GDPval-AA 지표를 핵심으로 내세웠습니다.

결과는 냉정했습니다. 기존 버전에서 평균 73점을 기록했던 최상위 모델들은 이번 v4.0 척도에서 50점 이하로 추락했습니다. 평가의 난이도를 높여 향후 기술 발전을 수용할 수 있는 공간을 확보한 것입니다. 현재 1위는 확장 추론 기능을 갖춘 OpenAI의 GPT-5.2가 차지했으며, 앤스로픽(Anthropic)의 클로드 4.5 오퍼스(Claude 4.5 Opus)가 그 뒤를 바짝 쫓고 있습니다.

업무 숙련도와 과학적 추론의 한계

가장 혁신적인 변화인 GDPval-AA는 44개 직업군과 9개 산업 분야의 실제 업무 과제를 테스트합니다. OpenAI에 따르면 GPT-5.2는 명확하게 정의된 지식 노동 과제의 70.9%에서 현직 전문가와 대등하거나 그 이상의 성과를 냈습니다. 하지만 과학적 추론 능력은 여전히 갈 길이 멉니다. 대학원 수준의 물리학 문제를 다루는 CritPT 평가에서 최고 모델인 GPT-5.2의 정답률은 고작 11.5%에 그쳤습니다.

인텔리전스 인덱스 v4.0: 단순 암기에서 실전 업무 능력으로

업무 숙련도와 과학적 추론의 한계

관련 기사