Liabooks Home|PRISM News
AI性能評価指標 v4.0 公開:OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突
TechAI分析

AI性能評価指標 v4.0 公開:OpenAI GPT-5.2とClaude Opus 4.5が「実務能力」で激突

3分で読めるSource

Artificial Analysisが最新のAI性能評価指標 v4.0を公開。OpenAI GPT-5.2やClaude Opus 4.5が実務能力で激突。従来のベンチマークは廃止され、仕事の完遂能力が新たな評価軸となります。

AIモデルの進化スピードが、既存の評価指標を過去のものにしています。2026年1月5日(現地時間)、独立系ベンチマーク機関のArtificial Analysisは、AIの真の実力を測定するための新基準「Intelligence Index v4.0」を発表しました。今回の刷新により、従来の知識暗記型テストは姿を消し、人間が対価を得て行う「経済的に価値のある仕事」ができるかどうかが評価の焦点となっています。

Intelligence Index v4.0 が提示する「実務型AI」への転換

新しいインデックスでは、MMLU-ProAIME 2025といった定番のベンチマークが廃止されました。これらのテストでは最新モデルが軒並み高得点を出し、性能差を判別できなくなったためです。新たな評価基準では、エージェント能力、コーディング、科学的推論、一般知識の4分野が均等に重視されます。その結果、旧バージョンで「73」だったトップモデルの平均スコアは、新基準では「50」以下にまでリセットされました。これは、今後のAI進化の余地を確保するための意図的な再調整です。

モデル名ELOスコア (GDPval-AA)科学的推論 (CritPT)
OpenAI GPT-5.2144211.5%
Claude Opus 4.51403トップクラス(非公開)
Gemini 3 Pro1200台10%前後

仕事の代替能力を測る GDPval-AA とハルシネーションの罠

注目すべきは、44の職種にわたる実務タスクを評価する「GDPval-AA」の導入です。AIが単に問いに答えるだけでなく、書類やスプレッドシートの作成といった成果物を出せるかを測定します。このテストで、OpenAIGPT-5.2は、特定のタスクにおいて人間の専門家を70.9%の確率で上回る、あるいは互角の成果を出したと報告されています。

本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。

関連記事

全世界へ展開されるChatGPT Goをイメージしたスマートフォンとデジタルネットワークの図
TechJP
ChatGPT Go GPT-5.2 全世界提供開始:より高性能なAIが手軽な価格で登場

2026年1月16日、OpenAIはChatGPT Go GPT-5.2 全世界提供を開始。GPT-5.2 Instant搭載、利用制限緩和、メモリ拡張により、高度なAIがより安価で身近になりました。AIの民主化が進む最新ニュースを Chief Editor が解説します。

最新の医療AIアプリを使用する医師とデジタルチャートのイメージ
TechJP
医療ドラマ『The Pitt』シーズン2に見るAIの現実:GPT-5.2の幻覚率10.9%と現場の解離

医療ドラマ『The Pitt』シーズン2で描かれた医療AIの導入と、最新モデルGPT-5.2の幻覚率10.9%という現実を比較分析。AIが医師の事務作業を80%削減する可能性と、医療現場で直面する精度の壁について解説します。

NetomiのAIエージェント構造を示す概念図
TechJP
Netomi が GPT-5.2 で挑むエンタープライズ AI エージェントの拡張性とガバナンス

NetomiがGPT-5.2とGPT-4.1を活用し、企業向けAIエージェントを大規模に拡張する方法を公開。高度な推論と厳格なガバナンスを両立させた次世代のワークフロー管理に迫ります。

AIモデルの公平な評価を象徴する、デジタル空間に浮かぶ天秤のイメージ
TechJP
AIの「審判」LMArenaが1.5億ドルのA輪調達、評価額は17億ドルへ

AI評価の標準を狙うLMArenaが1.5億ドルのシリーズA資金調達を実施。評価額は17億ドルに達し、月間500万人のユーザーデータを武器に、OpenAIやGoogleなどのAIモデルを格付け。ビジネス化も加速し、ARR 3,000万ドルを達成しています。