AI性能評価指標 v4.0 公開:OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突
Artificial Analysisが最新のAI性能評価指標 v4.0を公開。OpenAI GPT-5.2やClaude Opus 4.5が実務能力で激突。従来のベンチマークは廃止され、仕事の完遂能力が新たな評価軸となります。
AIモデルの進化スピードが、既存の評価指標を過去のものにしています。2026年1月5日(現地時間)、独立系ベンチマーク機関のArtificial Analysisは、AIの真の実力を測定するための新基準「Intelligence Index v4.0」を発表しました。今回の刷新により、従来の知識暗記型テストは姿を消し、人間が対価を得て行う「経済的に価値のある仕事」ができるかどうかが評価の焦点となっています。
Intelligence Index v4.0 が提示する「実務型AI」への転換
新しいインデックスでは、MMLU-ProやAIME 2025といった定番のベンチマークが廃止されました。これらのテストでは最新モデルが軒並み高得点を出し、性能差を判別できなくなったためです。新たな評価基準では、エージェント能力、コーディング、科学的推論、一般知識の4分野が均等に重視されます。その結果、旧バージョンで「73」だったトップモデルの平均スコアは、新基準では「50」以下にまでリセットされました。これは、今後のAI進化の余地を確保するための意図的な再調整です。
| モデル名 | ELOスコア (GDPval-AA) | 科学的推論 (CritPT) |
|---|---|---|
| OpenAI GPT-5.2 | 1442 | 11.5% |
| Claude Opus 4.5 | 1403 | トップクラス(非公開) |
| Gemini 3 Pro | 1200台 | 10%前後 |
仕事の代替能力を測る GDPval-AA とハルシネーションの罠
注目すべきは、44の職種にわたる実務タスクを評価する「GDPval-AA」の導入です。AIが単に問いに答えるだけでなく、書類やスプレッドシートの作成といった成果物を出せるかを測定します。このテストで、OpenAIのGPT-5.2は、特定のタスクにおいて人間の専門家を70.9%の確率で上回る、あるいは互角の成果を出したと報告されています。
本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。
関連記事
2026年1月16日、OpenAIはChatGPT Go GPT-5.2 全世界提供を開始。GPT-5.2 Instant搭載、利用制限緩和、メモリ拡張により、高度なAIがより安価で身近になりました。AIの民主化が進む最新ニュースを Chief Editor が解説します。
医療ドラマ『The Pitt』シーズン2で描かれた医療AIの導入と、最新モデルGPT-5.2の幻覚率10.9%という現実を比較分析。AIが医師の事務作業を80%削減する可能性と、医療現場で直面する精度の壁について解説します。
NetomiがGPT-5.2とGPT-4.1を活用し、企業向けAIエージェントを大規模に拡張する方法を公開。高度な推論と厳格なガバナンスを両立させた次世代のワークフロー管理に迫ります。
AI評価の標準を狙うLMArenaが1.5億ドルのシリーズA資金調達を実施。評価額は17億ドルに達し、月間500万人のユーザーデータを武器に、OpenAIやGoogleなどのAIモデルを格付け。ビジネス化も加速し、ARR 3,000万ドルを達成しています。