AI能力測量的「5小時門檻」背後真相

METR的AI能力測量圖表顯示指數級進步，但這個數字真正意味著什麼？解析華人世界需要了解的技術現實。

5小時。這是最新AI模型Claude Opus 4.5能獨立完成人類需要5小時才能完成任務的衡量標準。然而，這個數字正在引發從威脅論到樂觀論的各種解讀。

爭議核心：METR圖表究竟測量什麼

METR（Model Evaluation & Threat Research）這個AI研究非營利組織開發了一套獨特的AI能力測量方法。他們製作的圖表顯示AI能力正以指數級速度提升，在AI界引起巨大關注。

去年11月Anthropic發布的Claude Opus 4.5表現遠超預期。一位Anthropic安全研究員在推特表示會因此改變研究方向，另一位員工則直接寫道：「媽媽快來接我，我害怕了。」

但METR技術人員Sydney Von Arx指出：「人們對這個圖表過度解讀了。」

METR圖表的縱軸使用「時間軸（time horizon）」這個特殊指標。它表示AI模型能以50%成功率完成的任務，人類需要多長時間才能完成。

測量流程如下：

因此，Claude Opus 4.5的「5小時」數值意味著「AI能成功完成50%人類需要5小時完成的任務」，而非「AI能連續工作5小時」。

廣告合作

這個趨勢確實令人印象深刻。頂級模型的時間軸約每7個月翻倍：2020年中期為9秒，2023年初期為4分鐘，2024年後期達到40分鐘。

創投公司Sequoia Capital最近引用此圖表預測「能作為員工或承包商的AI即將到來」。但對華人世界而言，關鍵是理解這些數字的局限性。

首先，評估任務主要限於程式設計。伊利諾大學助理教授Daniel Kang指出：「模型在程式設計方面進步，不代表在其他領域也會神奇地變好。」

其次，真實工作環境比評估任務複雜得多。METR研究雖然測量了任務的「混亂程度」，但現實業務包含更多不可預測因素。

從華人科技生態來看，這項技術進步為人力短缺提供了潛在解決方案。阿里巴巴、騰訊等科技巨頭可能率先將這些能力整合到現有服務中。

然而，亞洲企業重視的精確性和客戶服務標準來看，AI的「50%成功率」可能還不足以滿足實際需求。特別是台灣的半導體產業或香港的金融服務業，對準確性的要求極高。

台積電或聯發科這類企業更可能採用漸進式整合策略，將AI作為輔助工具來增強人類專業能力，而非完全替代。

值得注意的是，這些AI能力評估主要由美國機構進行，使用的也是西方開發的模型。中國大陸的AI模型如文心一言或通義千問在類似評估中的表現如何？這種評估標準是否適用於不同的技術路線和應用場景？

華人世界需要建立自己的AI能力評估體系，既要參考國際標準，也要考慮本地化需求和文化背景。