Liabooks Home|PRISM News
AI性能評估指標 v4.0 震撼發布:OpenAI GPT-5.2 與 Claude Opus 4.5 的「實戰」對決
TechAI分析

AI性能評估指標 v4.0 震撼發布:OpenAI GPT-5.2 與 Claude Opus 4.5 的「實戰」對決

2分钟阅读Source

Artificial Analysis 發布最新 AI性能評估指標 v4.0,廢除過時測驗。OpenAI GPT-5.2 與 Claude Opus 4.5 在實務任務測試 GDPval-AA 中展開正面交鋒,重新定義 AI 的實力標竿。

AI 模型競爭白熱化,傳統測驗已難分勝負。2026年1月5日,獨立評測機構 Artificial Analysis 發布了翻天覆地的「Intelligence Index v4.0」評估指標。這項新標準宣告了「背誦時代」的終結,將核心轉向衡量 AI 能否執行「人類領取薪資」的高價值工作。

AI性能評估指標 v4.0:告別高分虛榮,回歸經濟價值

由於各大廠商的領先模型在舊有測試中紛紛取得超過 90分 的成績,導致評測失去辨識度。此次 v4.0 版本果斷汰換了 MMLU-ProAIME 2025 等過時指標。在新架構下,頂級模型的得分從原本的 73分 驟降至 50分 以下。這種「人為調難」的作法,旨在為未來的技術突破留出成長空間。

  • 代理能力 (Agents)
  • :測試 AI 是否能自主完成多步驟任務。
  • 編碼能力 (Coding)
  • :評估軟體開發與邏輯建構。
  • 科學推理 (Scientific Reasoning)
  • :挑戰研究生等級的物理難題。

GDPval-AA 實戰測試:OpenAI 領跑工作執行力

最受矚目的新增指標是「GDPval-AA」。它測試 AI 在跨越 9大行業44種職位中的實務表現。根據測驗結果,帶有長思考模式的 OpenAI GPT-5.21442 的 ELO 分數獨占鰲頭,緊隨其後的是 AnthropicClaude Opus 4.51403分)。而在科學推理測試 CritPT 中,即使是領先者也僅獲得 11.5% 的分數,顯示 AI 在深層科學探索上仍有極大進步空間。

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

相关文章