AI性能評估指標 v4.0 震撼發布：OpenAI GPT-5.2 與 Claude Opus 4.5 的「實戰」對決

Artificial Analysis 發布最新 AI性能評估指標 v4.0，廢除過時測驗。OpenAI GPT-5.2 與 Claude Opus 4.5 在實務任務測試 GDPval-AA 中展開正面交鋒，重新定義 AI 的實力標竿。

AI 模型競爭白熱化，傳統測驗已難分勝負。2026年1月5日，獨立評測機構 Artificial Analysis 發布了翻天覆地的「Intelligence Index v4.0」評估指標。這項新標準宣告了「背誦時代」的終結，將核心轉向衡量 AI 能否執行「人類領取薪資」的高價值工作。

AI性能評估指標 v4.0：告別高分虛榮，回歸經濟價值

由於各大廠商的領先模型在舊有測試中紛紛取得超過 90分的成績，導致評測失去辨識度。此次 v4.0 版本果斷汰換了 MMLU-Pro 與 AIME 2025 等過時指標。在新架構下，頂級模型的得分從原本的 73分驟降至 50分以下。這種「人為調難」的作法，旨在為未來的技術突破留出成長空間。

代理能力 (Agents)
：測試 AI 是否能自主完成多步驟任務。
編碼能力 (Coding)
：評估軟體開發與邏輯建構。
科學推理 (Scientific Reasoning)
：挑戰研究生等級的物理難題。

GDPval-AA 實戰測試：OpenAI 領跑工作執行力

最受矚目的新增指標是「GDPval-AA」。它測試 AI 在跨越 9大行業、44種職位中的實務表現。根據測驗結果，帶有長思考模式的 OpenAI GPT-5.2 以 1442 的 ELO 分數獨占鰲頭，緊隨其後的是 Anthropic 的 Claude Opus 4.5（1403分）。而在科學推理測試 CritPT 中，即使是領先者也僅獲得 11.5% 的分數，顯示 AI 在深層科學探索上仍有極大進步空間。

AI性能評估指標 v4.0：告別高分虛榮，回歸經濟價值

GDPval-AA 實戰測試：OpenAI 領跑工作執行力

相关文章