AI 取代精英夢碎?最新 Apex-Agents 基準測試顯示法律與金融任務勝算僅 24%
2026 年最新 Apex-Agents 基準測試顯示,GPT-5.2 與 Gemini 3 Flash 在處理律師、投資銀行家等專業任務時正確率僅約 24%。多域推理能力不足成為 AI 取代白領工作的主要障礙。
微軟執行長納德拉曾預言 AI 將翻天覆地改變智力勞動,但時隔兩年,現實卻給了科技界一記當頭棒喝。根據數據巨頭 Mercor 的最新研究,即便是一線的 AI 模型,在面對律師、投資銀行家等真實專業任務時,表現依然乏善可陳。
Apex-Agents 基準測試:AI 實驗室面臨集體不及格
這項名為「Apex-Agents」的全新基準測試,直接採用法律與金融領域的真實案例。結果顯示,表現最佳的 Gemini 3 Flash 正確率僅為 24%,而備受期待的 GPT-5.2 則以 23% 緊隨其後。大多數情況下,模型給出的答案不是牛頭不對馬嘴,就是乾脆交白卷。
專業技能自動化的長路漫漫
研究人員 Brendan Foody 指出,雖然 AI 在通用知識測試中獨佔鰲頭,但在高價值專業領域的持續任務中表現仍像個「不合格的實習生」。例如在歐盟隱私法(GDPR)與公司政策的交叉判斷中,AI 很難像資深律師那樣進行深度的合規性評估。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
2026年1月16日,ChatGPT Go GPT-5.2 全球發布,搭載 GPT-5.2 Instant 模型,提供更長記憶與更低價格。深入解析這場 AI 技術普及化對全球用戶的翻天覆地影響。
探討 Google DeepMind 執行長 Demis Hassabis 如何透過 Gemini 3 策略帶領 Alphabet 股價創下 2009 年以來最佳表現。解析他與 Sundar Pichai 的每日協作、研發體制改革以及對 AI 泡沫化的看法。
深入解析美劇《The Pitt》第二季中的醫療 AI 應用。對比劇中的 98% 準確率聲明與 GPT-5.2 實際高達 10.9% 的幻覺率,探討 AI 在減輕病歷文書壓力與診斷準確度之間的平衡。
Netomi 展示如何利用 GPT-4.1 與 GPT-5.2 實現企業級 AI 代理人的規模化部署,結合多步推理與嚴格治理,為 2026 年的企業自動化奠定基礎。