아티피셜 애널리시스 인텔리전스 인덱스 v4.0: AI 평가 기준이 '업무 수행'으로 이동하다
아티피셜 애널리시스가 발표한 인텔리전스 인덱스 v4.0은 AI 평가 기준을 실무 업무 수행 능력으로 전환했습니다. GPT-5.2와 클로드 4.5의 성적을 확인하세요.
이제 AI의 똑똑함은 시험 점수가 아니라 '돈이 되는 일을 얼마나 잘하느냐'로 증명해야 합니다. 독립 AI 벤치마크 기관인 아티피셜 애널리시스(Artificial Analysis)가 현지시간 월요일, 업계의 표준으로 통하던 인텔리전스 인덱스의 대대적인 개편안인 v4.0을 발표했습니다. 이번 개편은 기존 모델들이 이미 만점에 가까운 점수를 기록하며 변별력을 상실한 '벤치마크 포화' 상태를 해결하기 위한 조치입니다.
인텔리전스 인덱스 v4.0: 단순 암기에서 실전 업무 능력으로
새로운 인텔리전스 인덱스 v4.0은 에이전트, 코딩, 과학적 추론, 일반 지식 등 10가지 평가 항목을 도입했습니다. 특히 눈에 띄는 변화는 MMLU-Pro, AIME 2025 등 기존의 주요 지표들을 삭제했다는 점입니다. 대신 AI가 실제 업무 현장에서 문서를 만들고, 슬라이드를 구성하며, 복잡한 스프레드시트를 다루는 능력을 측정하는 GDPval-AA 지표를 핵심으로 내세웠습니다.
결과는 냉정했습니다. 기존 버전에서 평균 73점을 기록했던 최상위 모델들은 이번 v4.0 척도에서 50점 이하로 추락했습니다. 평가의 난이도를 높여 향후 기술 발전을 수용할 수 있는 공간을 확보한 것입니다. 현재 1위는 확장 추론 기능을 갖춘 OpenAI의 GPT-5.2가 차지했으며, 앤스로픽(Anthropic)의 클로드 4.5 오퍼스(Claude 4.5 Opus)가 그 뒤를 바짝 쫓고 있습니다.
업무 숙련도와 과학적 추론의 한계
가장 혁신적인 변화인 GDPval-AA는 44개 직업군과 9개 산업 분야의 실제 업무 과제를 테스트합니다. OpenAI에 따르면 GPT-5.2는 명확하게 정의된 지식 노동 과제의 70.9%에서 현직 전문가와 대등하거나 그 이상의 성과를 냈습니다. 하지만 과학적 추론 능력은 여전히 갈 길이 멉니다. 대학원 수준의 물리학 문제를 다루는 CritPT 평가에서 최고 모델인 GPT-5.2의 정답률은 고작 11.5%에 그쳤습니다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
Netomi가 GPT-4.1 및 GPT-5.2를 활용하여 엔터프라이즈 AI 에이전트를 대규모로 확장하는 전략을 공개했습니다. 동시성, 거버넌스, 다단계 추론을 결합한 신뢰성 높은 AI 워크플로우 구축법을 확인하세요.
앤스로픽이 클로드 코드 2.1.0을 발표했습니다. 에이전트 제어 훅, 세션 이식성, Vim 모션 등 1,096개의 커밋이 포함된 이번 업데이트는 개발 환경을 어떻게 혁신하는지 확인하세요.
2026년 1월, 베이징 연구진이 실험실 내 마이크로유체 칩에서 인간 배아의 착상 과정을 구현했습니다. 실험실 인공 배아 이식 기술의 발전과 7조 개의 매개변수를 가진 AI의 진화, 그리고 IVF 배아의 윤리적 쟁점을 PRISM이 분석합니다.
AI 벤치마크 스타트업 LMArena가 1억 5,000만 달러 규모의 시리즈 A 투자를 유치하며 17억 달러의 기업 가치를 인정받았습니다. 연간 매출 3,000만 달러를 달성한 이들의 비즈니스 전략을 분석합니다.