AI性能評估指標 v4.0 震撼發布:OpenAI GPT-5.2 與 Claude Opus 4.5 的「實戰」對決
Artificial Analysis 發布最新 AI性能評估指標 v4.0,廢除過時測驗。OpenAI GPT-5.2 與 Claude Opus 4.5 在實務任務測試 GDPval-AA 中展開正面交鋒,重新定義 AI 的實力標竿。
AI 模型競爭白熱化,傳統測驗已難分勝負。2026年1月5日,獨立評測機構 Artificial Analysis 發布了翻天覆地的「Intelligence Index v4.0」評估指標。這項新標準宣告了「背誦時代」的終結,將核心轉向衡量 AI 能否執行「人類領取薪資」的高價值工作。
AI性能評估指標 v4.0:告別高分虛榮,回歸經濟價值
由於各大廠商的領先模型在舊有測試中紛紛取得超過 90分 的成績,導致評測失去辨識度。此次 v4.0 版本果斷汰換了 MMLU-Pro 與 AIME 2025 等過時指標。在新架構下,頂級模型的得分從原本的 73分 驟降至 50分 以下。這種「人為調難」的作法,旨在為未來的技術突破留出成長空間。
- 代理能力 (Agents)
- :測試 AI 是否能自主完成多步驟任務。
- 編碼能力 (Coding)
- :評估軟體開發與邏輯建構。
- 科學推理 (Scientific Reasoning)
- :挑戰研究生等級的物理難題。
GDPval-AA 實戰測試:OpenAI 領跑工作執行力
最受矚目的新增指標是「GDPval-AA」。它測試 AI 在跨越 9大行業、44種職位中的實務表現。根據測驗結果,帶有長思考模式的 OpenAI GPT-5.2 以 1442 的 ELO 分數獨占鰲頭,緊隨其後的是 Anthropic 的 Claude Opus 4.5(1403分)。而在科學推理測試 CritPT 中,即使是領先者也僅獲得 11.5% 的分數,顯示 AI 在深層科學探索上仍有極大進步空間。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
Netomi 展示如何利用 GPT-4.1 與 GPT-5.2 實現企業級 AI 代理人的規模化部署,結合多步推理與嚴格治理,為 2026 年的企業自動化奠定基礎。
OpenAI 推出 Android 版 ChatGPT Thinking mode 升級,Plus 用戶現在可以在行動端使用深度思考模式。結合 GPT-5.2 的強大算力,應對 Gemini 3 的激烈競爭。
2025年末,OpenAI CEO奧特曼下達「紅色警戒」,應對來自Google的激烈競爭與多宗法律訴訟。本文深入解析其GPT-5.2發布、與迪士尼的10億美元合作,以及面臨的版權與安全訴訟等多重挑戰。
OpenAI釋出GPT-5.2消息,細節雖少卻意義深遠。本文深入分析其對AI競爭格局、企業策略和技術趨勢的影響,揭示AI產業正從規模競賽轉向效率與應用之戰。