AI性能評価指標 v4.0 公開：OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突

Artificial Analysisが最新のAI性能評価指標 v4.0を公開。OpenAI GPT-5.2やClaude Opus 4.5が実務能力で激突。従来のベンチマークは廃止され、仕事の完遂能力が新たな評価軸となります。

AIモデルの進化スピードが、既存の評価指標を過去のものにしています。2026年1月5日（現地時間）、独立系ベンチマーク機関のArtificial Analysisは、AIの真の実力を測定するための新基準「Intelligence Index v4.0」を発表しました。今回の刷新により、従来の知識暗記型テストは姿を消し、人間が対価を得て行う「経済的に価値のある仕事」ができるかどうかが評価の焦点となっています。

Intelligence Index v4.0 が提示する「実務型AI」への転換

新しいインデックスでは、MMLU-ProやAIME 2025といった定番のベンチマークが廃止されました。これらのテストでは最新モデルが軒並み高得点を出し、性能差を判別できなくなったためです。新たな評価基準では、エージェント能力、コーディング、科学的推論、一般知識の4分野が均等に重視されます。その結果、旧バージョンで「73」だったトップモデルの平均スコアは、新基準では「50」以下にまでリセットされました。これは、今後のAI進化の余地を確保するための意図的な再調整です。

モデル名	ELOスコア (GDPval-AA)	科学的推論 (CritPT)
OpenAI GPT-5.2	1442	11.5%
Claude Opus 4.5	1403	トップクラス(非公開)
Gemini 3 Pro	1200台	10%前後

広告掲載について

[email protected]

仕事の代替能力を測る GDPval-AA とハルシネーションの罠

注目すべきは、44の職種にわたる実務タスクを評価する「GDPval-AA」の導入です。AIが単に問いに答えるだけでなく、書類やスプレッドシートの作成といった成果物を出せるかを測定します。このテストで、OpenAIのGPT-5.2は、特定のタスクにおいて人間の専門家を70.9%の確率で上回る、あるいは互角の成果を出したと報告されています。

Intelligence Index v4.0 が提示する「実務型AI」への転換

仕事の代替能力を測る GDPval-AA とハルシネーションの罠

意見

記者

関連記事