AI性能評估指標 v4.0 震撼發布:OpenAI GPT-5.2 與 Claude Opus 4.5 的「實戰」對決
Artificial Analysis 發布最新 AI性能評估指標 v4.0,廢除過時測驗。OpenAI GPT-5.2 與 Claude Opus 4.5 在實務任務測試 GDPval-AA 中展開正面交鋒,重新定義 AI 的實力標竿。
AI 模型競爭白熱化,傳統測驗已難分勝負。2026年1月5日,獨立評測機構 Artificial Analysis 發布了翻天覆地的「Intelligence Index v4.0」評估指標。這項新標準宣告了「背誦時代」的終結,將核心轉向衡量 AI 能否執行「人類領取薪資」的高價值工作。
AI性能評估指標 v4.0:告別高分虛榮,回歸經濟價值
由於各大廠商的領先模型在舊有測試中紛紛取得超過 90分 的成績,導致評測失去辨識度。此次 v4.0 版本果斷汰換了 MMLU-Pro 與 AIME 2025 等過時指標。在新架構下,頂級模型的得分從原本的 73分 驟降至 50分 以下。這種「人為調難」的作法,旨在為未來的技術突破留出成長空間。
- 代理能力 (Agents)
- :測試 AI 是否能自主完成多步驟任務。
- 編碼能力 (Coding)
- :評估軟體開發與邏輯建構。
- 科學推理 (Scientific Reasoning)
- :挑戰研究生等級的物理難題。
GDPval-AA 實戰測試:OpenAI 領跑工作執行力
最受矚目的新增指標是「GDPval-AA」。它測試 AI 在跨越 9大行業、44種職位中的實務表現。根據測驗結果,帶有長思考模式的 OpenAI GPT-5.2 以 1442 的 ELO 分數獨占鰲頭,緊隨其後的是 Anthropic 的 Claude Opus 4.5(1403分)。而在科學推理測試 CritPT 中,即使是領先者也僅獲得 11.5% 的分數,顯示 AI 在深層科學探索上仍有極大進步空間。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
2026年1月16日,ChatGPT Go GPT-5.2 全球發布,搭載 GPT-5.2 Instant 模型,提供更長記憶與更低價格。深入解析這場 AI 技術普及化對全球用戶的翻天覆地影響。
深入解析美劇《The Pitt》第二季中的醫療 AI 應用。對比劇中的 98% 準確率聲明與 GPT-5.2 實際高達 10.9% 的幻覺率,探討 AI 在減輕病歷文書壓力與診斷準確度之間的平衡。
Netomi 展示如何利用 GPT-4.1 與 GPT-5.2 實現企業級 AI 代理人的規模化部署,結合多步推理與嚴格治理,為 2026 年的企業自動化奠定基礎。
OpenAI 推出 Android 版 ChatGPT Thinking mode 升級,Plus 用戶現在可以在行動端使用深度思考模式。結合 GPT-5.2 的強大算力,應對 Gemini 3 的激烈競爭。