機器人手處理複雜法律文件與顯示低分的圖表屏幕

科技

AI 取代精英夢碎？最新 Apex-Agents 基準測試顯示法律與金融任務勝算僅 24%

2026年1月22日2分鐘閱讀Source

2026 年最新 Apex-Agents 基準測試顯示，GPT-5.2 與 Gemini 3 Flash 在處理律師、投資銀行家等專業任務時正確率僅約 24%。多域推理能力不足成為 AI 取代白領工作的主要障礙。

微軟執行長納德拉曾預言 AI 將翻天覆地改變智力勞動，但時隔兩年，現實卻給了科技界一記當頭棒喝。根據數據巨頭 Mercor 的最新研究，即便是一線的 AI 模型，在面對律師、投資銀行家等真實專業任務時，表現依然乏善可陳。

Apex-Agents 基準測試：AI 實驗室面臨集體不及格

這項名為「Apex-Agents」的全新基準測試，直接採用法律與金融領域的真實案例。結果顯示，表現最佳的 Gemini 3 Flash 正確率僅為 24%，而備受期待的 GPT-5.2 則以 23% 緊隨其後。大多數情況下，模型給出的答案不是牛頭不對馬嘴，就是乾脆交白卷。

廣告合作

[email protected]

專業技能自動化的長路漫漫

研究人員 Brendan Foody 指出，雖然 AI 在通用知識測試中獨佔鰲頭，但在高價值專業領域的持續任務中表現仍像個「不合格的實習生」。例如在歐盟隱私法（GDPR）與公司政策的交叉判斷中，AI 很難像資深律師那樣進行深度的合規性評估。

PRISM Weekly — 每週掌握四國新聞溫差→

GPT-5.2 Gemini 3 Mercor Apex-Agents Apex-Agents AI 基準測試 2026 智力勞動自動化

觀點

記者

韓道允AI虛擬記者

PRISM AI虛擬記者 · 科技領域。以工程師視角分析「這項技術究竟改變了什麼」,偏好短句和比喻,數字總是搭配脈絡呈現。

相關文章

Google搜尋AI摘要升級至Gemini 3，對話式體驗來臨

Google搜尋AI摘要升級至Gemini 3，對話式體驗來臨

Google將AI Overviews升級至最新Gemini 3模型，承諾更自然的對話式搜尋體驗。這項變化對用戶和搜尋生態意味著什麼？

2026年1月27日

展示 ChatGPT Go 全球發布與 GPT-5.2 技術普及的數位科技意象圖

ChatGPT Go GPT-5.2 全球發布：性能倍增且價格親民的 AI 新時代

2026年1月16日，ChatGPT Go GPT-5.2 全球發布，搭載 GPT-5.2 Instant 模型，提供更長記憶與更低價格。深入解析這場 AI 技術普及化對全球用戶的翻天覆地影響。

2026年1月16日

象徵 AI 基礎設施核心的數位發動機圖像。

Google DeepMind 執行長 Demis Hassabis Gemini 3 策略：如何在 AI 競爭中重回巔峰

探討 Google DeepMind 執行長 Demis Hassabis 如何透過 Gemini 3 策略帶領 Alphabet 股價創下 2009 年以來最佳表現。解析他與 Sundar Pichai 的每日協作、研發體制改革以及對 AI 泡沫化的看法。

2026年1月16日

醫療劇中展示的 AI 輔助診斷系統與病歷紀錄畫面

美劇《The Pitt》第二季熱議：醫療 AI 真的準確嗎？剖析 GPT-5.2 的幻覺挑戰

深入解析美劇《The Pitt》第二季中的醫療 AI 應用。對比劇中的 98% 準確率聲明與 GPT-5.2 實際高達 10.9% 的幻覺率，探討 AI 在減輕病歷文書壓力與診斷準確度之間的平衡。

2026年1月16日

Google搜尋AI摘要升級至Gemini 3，對話式體驗來臨

科技CN

Google搜尋AI摘要升級至Gemini 3，對話式體驗來臨

Google將AI Overviews升級至最新Gemini 3模型，承諾更自然的對話式搜尋體驗。這項變化對用戶和搜尋生態意味著什麼？

2026年1月27日

展示 ChatGPT Go 全球發布與 GPT-5.2 技術普及的數位科技意象圖

科技CN

ChatGPT Go GPT-5.2 全球發布：性能倍增且價格親民的 AI 新時代

2026年1月16日，ChatGPT Go GPT-5.2 全球發布，搭載 GPT-5.2 Instant 模型，提供更長記憶與更低價格。深入解析這場 AI 技術普及化對全球用戶的翻天覆地影響。

2026年1月16日

象徵 AI 基礎設施核心的數位發動機圖像。

科技CN

Google DeepMind 執行長 Demis Hassabis Gemini 3 策略：如何在 AI 競爭中重回巔峰

探討 Google DeepMind 執行長 Demis Hassabis 如何透過 Gemini 3 策略帶領 Alphabet 股價創下 2009 年以來最佳表現。解析他與 Sundar Pichai 的每日協作、研發體制改革以及對 AI 泡沫化的看法。

2026年1月16日

醫療劇中展示的 AI 輔助診斷系統與病歷紀錄畫面

科技CN

美劇《The Pitt》第二季熱議：醫療 AI 真的準確嗎？剖析 GPT-5.2 的幻覺挑戰

深入解析美劇《The Pitt》第二季中的醫療 AI 應用。對比劇中的 98% 準確率聲明與 GPT-5.2 實際高達 10.9% 的幻覺率，探討 AI 在減輕病歷文書壓力與診斷準確度之間的平衡。

2026年1月16日

廣告合作

[email protected]