AI性能評価指標 v4.0 公開:OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突
Artificial Analysisが最新のAI性能評価指標 v4.0を公開。OpenAI GPT-5.2やClaude Opus 4.5が実務能力で激突。従来のベンチマークは廃止され、仕事の完遂能力が新たな評価軸となります。
AIモデルの進化スピードが、既存の評価指標を過去のものにしています。2026年1月5日(現地時間)、独立系ベンチマーク機関のArtificial Analysisは、AIの真の実力を測定するための新基準「Intelligence Index v4.0」を発表しました。今回の刷新により、従来の知識暗記型テストは姿を消し、人間が対価を得て行う「経済的に価値のある仕事」ができるかどうかが評価の焦点となっています。
Intelligence Index v4.0 が提示する「実務型AI」への転換
新しいインデックスでは、MMLU-ProやAIME 2025といった定番のベンチマークが廃止されました。これらのテストでは最新モデルが軒並み高得点を出し、性能差を判別できなくなったためです。新たな評価基準では、エージェント能力、コーディング、科学的推論、一般知識の4分野が均等に重視されます。その結果、旧バージョンで「73」だったトップモデルの平均スコアは、新基準では「50」以下にまでリセットされました。これは、今後のAI進化の余地を確保するための意図的な再調整です。
| モデル名 | ELOスコア (GDPval-AA) | 科学的推論 (CritPT) |
|---|---|---|
| OpenAI GPT-5.2 | 1442 | 11.5% |
| Claude Opus 4.5 | 1403 | トップクラス(非公開) |
| Gemini 3 Pro | 1200台 | 10%前後 |
仕事の代替能力を測る GDPval-AA とハルシネーションの罠
注目すべきは、44の職種にわたる実務タスクを評価する「GDPval-AA」の導入です。AIが単に問いに答えるだけでなく、書類やスプレッドシートの作成といった成果物を出せるかを測定します。このテストで、OpenAIのGPT-5.2は、特定のタスクにおいて人間の専門家を70.9%の確率で上回る、あるいは互角の成果を出したと報告されています。
本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。
関連記事
NetomiがGPT-5.2とGPT-4.1を活用し、企業向けAIエージェントを大規模に拡張する方法を公開。高度な推論と厳格なガバナンスを両立させた次世代のワークフロー管理に迫ります。
AI評価の標準を狙うLMArenaが1.5億ドルのシリーズA資金調達を実施。評価額は17億ドルに達し、月間500万人のユーザーデータを武器に、OpenAIやGoogleなどのAIモデルを格付け。ビジネス化も加速し、ARR 3,000万ドルを達成しています。
OpenAIがAndroid版ChatGPTに待望のThinking mode(思考モード)を導入。ChatGPT PlusユーザーはモバイルでもAIの深い推論を利用可能になりました。GPT-5.2とGemini 3が競い合う中での新機能の詳細を解説します。
2025年末、OpenAIはサム・アルトマンCEOの「コードレッド」宣言のもと、競争と訴訟の嵐に直面。新モデルGPT-5.2投入、ディズニーとの10億ドル提携で攻勢をかける一方、著作権や安全性に関する法的課題も深刻化。AIの巨人が迎える正念場を解説します。