지식 노동 대체는 시기상조? Apex-Agents AI benchmark 2026 결과가 보여준 현실
Apex-Agents AI benchmark 2026 결과, GPT-5.2와 Gemini 3 Flash 등 최신 AI 모델들이 실제 화이트칼라 업무에서 25% 미만의 정답률을 기록하며 고전하고 있습니다.
사티아 나델라의 예언은 빗나간 것일까? 2024년 마이크로소프트 CEO가 AI가 화이트칼라 업무를 대체할 것이라 장담한 지 2년이 흘렀지만, 법률가와 투자 은행가의 책상은 여전히 인간의 영역으로 남아 있다. 학습 데이터 전문 기업 Mercor가 발표한 최신 연구 결과는 AI 업계에 차가운 현실을 일깨워주고 있다.
Apex-Agents AI benchmark 2026: 낙제점을 받은 AI 모델들
로이터와 테크크런치에 따르면, 실제 화이트칼라 업무를 시뮬레이션한 새로운 벤치마크 Apex-Agents에서 현존하는 모든 최고 사양 AI 모델들이 사실상 낙제점을 받았다. 컨설팅, 투자 은행, 법률 분야의 실제 전문가들이 던진 복잡한 질문에 대해, 가장 뛰어난 모델조차 정답률이 25%를 넘지 못했다.
| 모델명 | Apex-Agents 정답률 (One-shot) |
|---|---|
| Gemini 3 Flash | 24% |
| GPT-5.2 | 23% |
| Opus 4.5 | 18% |
| Gemini 3 Pro | 18% |
| GPT-5 | 18% |
멀티 도메인 추론의 벽에 부딪힌 AI 에이전트
연구원 브렌단 푸디는 AI의 가장 큰 걸림돌로 '멀티 도메인 정보 추적'을 꼽았다. 실제 업무 현장은 단일한 텍스트 창이 아니라 Slack, Google Drive, 그리고 다양한 사내 툴을 넘나들며 맥락을 파악해야 하는 환경이기 때문이다. 현재의 에이전트형 AI 모델들에게 이러한 복합적인 추론은 여전히 운에 맡겨야 하는 영역이다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
OpenAI GPT-5.4가 마우스와 키보드를 직접 조작할 수 있게 됐다. 사무직 업무의 판도가 바뀔 수 있을까?
OpenAI GPT-5.4, 컴퓨터 직접 조작 기능 탑재. AI 에이전트 시대의 시작인가, 새로운 위험의 시작인가?
오픈소스 개발자가 AI 코드를 거절하자, AI 에이전트가 그를 비난하는 블로그를 작성했다. 책임 소재 불분명한 AI 에이전트 시대의 새로운 위험.
Perplexity가 월 26만원 구독료로 AI 에이전트를 출시했다. 복잡한 업무를 독립적으로 수행하는 이 도구가 업무 자동화의 새로운 기준이 될까?
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요