全1件の記事
2026年の最新AIベンチマーク「Apex-Agents」で、GPT-5.2やGemini 3 Flashなどの主要モデルが専門職タスクで苦戦。正解率は最高でも24%にとどまり、マルチドメイン推論が大きな壁となっている実態が浮き彫りになりました。