Liabooks Home|PRISM News
복잡한 업무 툴 사이에서 고뇌하는 AI 에이전트의 형상
TechAI 분석

지식 노동 대체는 시기상조? Apex-Agents AI benchmark 2026 결과가 보여준 현실

3분 읽기Source

Apex-Agents AI benchmark 2026 결과, GPT-5.2와 Gemini 3 Flash 등 최신 AI 모델들이 실제 화이트칼라 업무에서 25% 미만의 정답률을 기록하며 고전하고 있습니다.

사티아 나델라의 예언은 빗나간 것일까? 2024년 마이크로소프트 CEO가 AI가 화이트칼라 업무를 대체할 것이라 장담한 지 2년이 흘렀지만, 법률가와 투자 은행가의 책상은 여전히 인간의 영역으로 남아 있다. 학습 데이터 전문 기업 Mercor가 발표한 최신 연구 결과는 AI 업계에 차가운 현실을 일깨워주고 있다.

Apex-Agents AI benchmark 2026: 낙제점을 받은 AI 모델들

로이터와 테크크런치에 따르면, 실제 화이트칼라 업무를 시뮬레이션한 새로운 벤치마크 Apex-Agents에서 현존하는 모든 최고 사양 AI 모델들이 사실상 낙제점을 받았다. 컨설팅, 투자 은행, 법률 분야의 실제 전문가들이 던진 복잡한 질문에 대해, 가장 뛰어난 모델조차 정답률이 25%를 넘지 못했다.

모델명Apex-Agents 정답률 (One-shot)
Gemini 3 Flash24%
GPT-5.223%
Opus 4.518%
Gemini 3 Pro18%
GPT-518%

멀티 도메인 추론의 벽에 부딪힌 AI 에이전트

연구원 브렌단 푸디는 AI의 가장 큰 걸림돌로 '멀티 도메인 정보 추적'을 꼽았다. 실제 업무 현장은 단일한 텍스트 창이 아니라 Slack, Google Drive, 그리고 다양한 사내 툴을 넘나들며 맥락을 파악해야 하는 환경이기 때문이다. 현재의 에이전트형 AI 모델들에게 이러한 복합적인 추론은 여전히 운에 맡겨야 하는 영역이다.

본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.

관련 기사