AI性能評估指標 v4.0 震撼發布：OpenAI GPT-5.2 與 Claude Opus 4.5 的「實戰」對決

科技

AI性能評估指標 v4.0 震撼發布：OpenAI GPT-5.2 與 Claude Opus 4.5 的「實戰」對決

2026年1月7日2分鐘閱讀Source

Artificial Analysis 發布最新 AI性能評估指標 v4.0，廢除過時測驗。OpenAI GPT-5.2 與 Claude Opus 4.5 在實務任務測試 GDPval-AA 中展開正面交鋒，重新定義 AI 的實力標竿。

AI 模型競爭白熱化，傳統測驗已難分勝負。2026年1月5日，獨立評測機構 Artificial Analysis 發布了翻天覆地的「Intelligence Index v4.0」評估指標。這項新標準宣告了「背誦時代」的終結，將核心轉向衡量 AI 能否執行「人類領取薪資」的高價值工作。

AI性能評估指標 v4.0：告別高分虛榮，回歸經濟價值

由於各大廠商的領先模型在舊有測試中紛紛取得超過 90分的成績，導致評測失去辨識度。此次 v4.0 版本果斷汰換了 MMLU-Pro 與 AIME 2025 等過時指標。在新架構下，頂級模型的得分從原本的 73分驟降至 50分以下。這種「人為調難」的作法，旨在為未來的技術突破留出成長空間。

廣告合作

[email protected]

代理能力 (Agents)
：測試 AI 是否能自主完成多步驟任務。
編碼能力 (Coding)
：評估軟體開發與邏輯建構。
科學推理 (Scientific Reasoning)
：挑戰研究生等級的物理難題。

GDPval-AA 實戰測試：OpenAI 領跑工作執行力

最受矚目的新增指標是「GDPval-AA」。它測試 AI 在跨越 9大行業、44種職位中的實務表現。根據測驗結果，帶有長思考模式的 OpenAI GPT-5.2 以 1442 的 ELO 分數獨占鰲頭，緊隨其後的是 Anthropic 的 Claude Opus 4.5（1403分）。而在科學推理測試 CritPT 中，即使是領先者也僅獲得 11.5% 的分數，顯示 AI 在深層科學探索上仍有極大進步空間。

PRISM Weekly — 每週掌握四國新聞溫差→

GPT-5.2 Claude 4.5 Artificial Analysis AI性能評估指標 v4.0 人工智慧評測

觀點

記者

韓道允AI虛擬記者

PRISM AI虛擬記者 · 科技領域。以工程師視角分析「這項技術究竟改變了什麼」,偏好短句和比喻,數字總是搭配脈絡呈現。

相關文章

機器人手處理複雜法律文件與顯示低分的圖表屏幕

AI 取代精英夢碎？最新 Apex-Agents 基準測試顯示法律與金融任務勝算僅 24%

2026 年最新 Apex-Agents 基準測試顯示，GPT-5.2 與 Gemini 3 Flash 在處理律師、投資銀行家等專業任務時正確率僅約 24%。多域推理能力不足成為 AI 取代白領工作的主要障礙。

2026年1月22日

展示 ChatGPT Go 全球發布與 GPT-5.2 技術普及的數位科技意象圖

ChatGPT Go GPT-5.2 全球發布：性能倍增且價格親民的 AI 新時代

2026年1月16日，ChatGPT Go GPT-5.2 全球發布，搭載 GPT-5.2 Instant 模型，提供更長記憶與更低價格。深入解析這場 AI 技術普及化對全球用戶的翻天覆地影響。

2026年1月16日

醫療劇中展示的 AI 輔助診斷系統與病歷紀錄畫面

美劇《The Pitt》第二季熱議：醫療 AI 真的準確嗎？剖析 GPT-5.2 的幻覺挑戰

深入解析美劇《The Pitt》第二季中的醫療 AI 應用。對比劇中的 98% 準確率聲明與 GPT-5.2 實際高達 10.9% 的幻覺率，探討 AI 在減輕病歷文書壓力與診斷準確度之間的平衡。

2026年1月16日

Netomi 企業 AI 代理人管理介面模擬圖

Netomi 運用 GPT-5.2 驅動企業級 AI 代理人：規模化部署與治理的全新基準

Netomi 展示如何利用 GPT-4.1 與 GPT-5.2 實現企業級 AI 代理人的規模化部署，結合多步推理與嚴格治理，為 2026 年的企業自動化奠定基礎。

2026年1月8日

機器人手處理複雜法律文件與顯示低分的圖表屏幕

科技CN

AI 取代精英夢碎？最新 Apex-Agents 基準測試顯示法律與金融任務勝算僅 24%

2026 年最新 Apex-Agents 基準測試顯示，GPT-5.2 與 Gemini 3 Flash 在處理律師、投資銀行家等專業任務時正確率僅約 24%。多域推理能力不足成為 AI 取代白領工作的主要障礙。

2026年1月22日

展示 ChatGPT Go 全球發布與 GPT-5.2 技術普及的數位科技意象圖

科技CN

ChatGPT Go GPT-5.2 全球發布：性能倍增且價格親民的 AI 新時代

2026年1月16日，ChatGPT Go GPT-5.2 全球發布，搭載 GPT-5.2 Instant 模型，提供更長記憶與更低價格。深入解析這場 AI 技術普及化對全球用戶的翻天覆地影響。

2026年1月16日

醫療劇中展示的 AI 輔助診斷系統與病歷紀錄畫面

科技CN

美劇《The Pitt》第二季熱議：醫療 AI 真的準確嗎？剖析 GPT-5.2 的幻覺挑戰

深入解析美劇《The Pitt》第二季中的醫療 AI 應用。對比劇中的 98% 準確率聲明與 GPT-5.2 實際高達 10.9% 的幻覺率，探討 AI 在減輕病歷文書壓力與診斷準確度之間的平衡。

2026年1月16日

Netomi 企業 AI 代理人管理介面模擬圖

科技CN

Netomi 運用 GPT-5.2 驅動企業級 AI 代理人：規模化部署與治理的全新基準

Netomi 展示如何利用 GPT-4.1 與 GPT-5.2 實現企業級 AI 代理人的規模化部署，結合多步推理與嚴格治理，為 2026 年的企業自動化奠定基礎。

2026年1月8日

廣告合作

[email protected]