Liabooks Home|PRISM News
機器人手處理複雜法律文件與顯示低分的圖表屏幕
TechAI分析

AI 取代精英夢碎?最新 Apex-Agents 基準測試顯示法律與金融任務勝算僅 24%

2分钟阅读Source

2026 年最新 Apex-Agents 基準測試顯示,GPT-5.2 與 Gemini 3 Flash 在處理律師、投資銀行家等專業任務時正確率僅約 24%。多域推理能力不足成為 AI 取代白領工作的主要障礙。

微軟執行長納德拉曾預言 AI 將翻天覆地改變智力勞動,但時隔兩年,現實卻給了科技界一記當頭棒喝。根據數據巨頭 Mercor 的最新研究,即便是一線的 AI 模型,在面對律師、投資銀行家等真實專業任務時,表現依然乏善可陳。

Apex-Agents 基準測試:AI 實驗室面臨集體不及格

這項名為「Apex-Agents」的全新基準測試,直接採用法律與金融領域的真實案例。結果顯示,表現最佳的 Gemini 3 Flash 正確率僅為 24%,而備受期待的 GPT-5.2 則以 23% 緊隨其後。大多數情況下,模型給出的答案不是牛頭不對馬嘴,就是乾脆交白卷。

專業技能自動化的長路漫漫

研究人員 Brendan Foody 指出,雖然 AI 在通用知識測試中獨佔鰲頭,但在高價值專業領域的持續任務中表現仍像個「不合格的實習生」。例如在歐盟隱私法(GDPR)與公司政策的交叉判斷中,AI 很難像資深律師那樣進行深度的合規性評估。

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

相关文章