지식 노동 대체는 시기상조? Apex-Agents AI benchmark 2026 결과가 보여준 현실
Apex-Agents AI benchmark 2026 결과, GPT-5.2와 Gemini 3 Flash 등 최신 AI 모델들이 실제 화이트칼라 업무에서 25% 미만의 정답률을 기록하며 고전하고 있습니다.
사티아 나델라의 예언은 빗나간 것일까? 2024년 마이크로소프트 CEO가 AI가 화이트칼라 업무를 대체할 것이라 장담한 지 2년이 흘렀지만, 법률가와 투자 은행가의 책상은 여전히 인간의 영역으로 남아 있다. 학습 데이터 전문 기업 Mercor가 발표한 최신 연구 결과는 AI 업계에 차가운 현실을 일깨워주고 있다.
Apex-Agents AI benchmark 2026: 낙제점을 받은 AI 모델들
로이터와 테크크런치에 따르면, 실제 화이트칼라 업무를 시뮬레이션한 새로운 벤치마크 Apex-Agents에서 현존하는 모든 최고 사양 AI 모델들이 사실상 낙제점을 받았다. 컨설팅, 투자 은행, 법률 분야의 실제 전문가들이 던진 복잡한 질문에 대해, 가장 뛰어난 모델조차 정답률이 25%를 넘지 못했다.
| 모델명 | Apex-Agents 정답률 (One-shot) |
|---|---|
| Gemini 3 Flash | 24% |
| GPT-5.2 | 23% |
| Opus 4.5 | 18% |
| Gemini 3 Pro | 18% |
| GPT-5 | 18% |
멀티 도메인 추론의 벽에 부딪힌 AI 에이전트
연구원 브렌단 푸디는 AI의 가장 큰 걸림돌로 '멀티 도메인 정보 추적'을 꼽았다. 실제 업무 현장은 단일한 텍스트 창이 아니라 Slack, Google Drive, 그리고 다양한 사내 툴을 넘나들며 맥락을 파악해야 하는 환경이기 때문이다. 현재의 에이전트형 AI 모델들에게 이러한 복합적인 추론은 여전히 운에 맡겨야 하는 영역이다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
Anthropic의 Claude Code가 2025년 ARR 10억 달러를 돌파하며 AI 코딩 시장을 장악했습니다. Claude Opus 4.5 기반의 에이전트 기술과 신제품 Cowork를 통한 비개발 직군 확장 전략을 분석합니다.
앤스로픽이 클로드 코드의 토큰 소모를 85% 줄인 'MCP 툴 서치'를 공개했습니다. 게으른 로딩 방식으로 AI 에이전트의 정확도를 최대 25% 높인 이번 업데이트의 핵심 분석.
OpenAI가 Thinking Machines Lab의 핵심 인력을 재영입하며 인재 전쟁이 심화되고 있습니다. 한편, 전문직 데이터를 활용한 AI 에이전트 훈련의 실체가 공개되었습니다.
Anthropic이 비전공자를 위한 AI 에이전트 'Claude Cowork'를 공개했습니다. 월 $100에 파일 정리, 이메일 관리, 일정 예약 등 PC 업무를 대행하는 이 도구의 기능과 보안 리스크를 분석합니다.