Liabooks Home|PRISM News
専門的な財務・法律データが表示された未来的なディスプレイとエラー表示
TechAI分析

AIはエリートの仕事を奪えるか?新型ベンチマーク「Apex-Agents」で見えた限界と2026年の現実

2分で読めるSource

2026年の最新AIベンチマーク「Apex-Agents」で、GPT-5.2やGemini 3 Flashなどの主要モデルが専門職タスクで苦戦。正解率は最高でも24%にとどまり、マルチドメイン推論が大きな壁となっている実態が浮き彫りになりました。

「AIがホワイトカラーの仕事を置き換える」という予測から約2年が経過しましたが、現実はそれほど単純ではないようです。トレーニングデータ大手のMercorが発表した最新の研究によると、法律や投資銀行、コンサルティングといった高度な専門職において、現在のAIモデルは「落第点」の状態にあることが明らかになりました。

Apex-Agentsベンチマークが暴くAIモデルの「25点の壁」

今回の調査で導入された新しいベンチマーク「Apex-Agents」は、実際の専門家が直面する複雑なクエリを基に設計されています。結果は驚くべきものでした。最も優れた成績を収めたGemini 3 Flashでさえ、正解率はわずか24%にとどまり、次いでGPT-5.223%という結果になりました。多くのモデルは誤回答を出すか、回答そのものを拒否するケースが大半を占めています。

モデル名正解率 (One-shot)
Gemini 3 Flash24%
GPT-5.223%
Opus 4.518%
Gemini 3 Pro18%
GPT-518%

なぜAIは「実務」でつまずくのか

研究に携わったブレンダン・フーディー氏によると、最大の難所は「マルチドメイン推論」にあります。現実の仕事は、SlackGoogle Driveなど複数のツールにまたがる情報を整理し、文脈を理解する必要があります。AIにとって、断片化された環境から必要な情報を見つけ出し、複雑な法的・財務的判断を下すことは、依然として高いハードルとなっています。

本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。

関連記事

全世界へ展開されるChatGPT Goをイメージしたスマートフォンとデジタルネットワークの図
TechJP
ChatGPT Go GPT-5.2 全世界提供開始:より高性能なAIが手軽な価格で登場

2026年1月16日、OpenAIはChatGPT Go GPT-5.2 全世界提供を開始。GPT-5.2 Instant搭載、利用制限緩和、メモリ拡張により、高度なAIがより安価で身近になりました。AIの民主化が進む最新ニュースを Chief Editor が解説します。

最新の医療AIアプリを使用する医師とデジタルチャートのイメージ
TechJP
医療ドラマ『The Pitt』シーズン2に見るAIの現実:GPT-5.2の幻覚率10.9%と現場の解離

医療ドラマ『The Pitt』シーズン2で描かれた医療AIの導入と、最新モデルGPT-5.2の幻覚率10.9%という現実を比較分析。AIが医師の事務作業を80%削減する可能性と、医療現場で直面する精度の壁について解説します。

NetomiのAIエージェント構造を示す概念図
TechJP
Netomi が GPT-5.2 で挑むエンタープライズ AI エージェントの拡張性とガバナンス

NetomiがGPT-5.2とGPT-4.1を活用し、企業向けAIエージェントを大規模に拡張する方法を公開。高度な推論と厳格なガバナンスを両立させた次世代のワークフロー管理に迫ります。

AI性能評価指標 v4.0 公開:OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突
TechJP
AI性能評価指標 v4.0 公開:OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突

Artificial Analysisが最新のAI性能評価指標 v4.0を公開。OpenAI GPT-5.2やClaude Opus 4.5が実務能力で激突。従来のベンチマークは廃止され、仕事の完遂能力が新たな評価軸となります。