AI診斷準確率67%：當機器比醫生更少出錯

哈佛醫學院最新研究顯示，OpenAI的o1模型在急診室初步診斷中準確率達67%，超越人類醫師的55%與50%。這對亞洲醫療體系意味著什麼？

67%對55%。這不是考試成績，而是一場關乎生死的診斷準確率比較——AI贏了。

研究說了什麼

本週，哈佛醫學院與貝斯以色列女執事醫療中心的研究團隊在頂尖學術期刊《Science》發表了一項研究，直接以真實急診病患為對象，測試OpenAI的AI模型與人類醫師的診斷能力。

研究團隊選取了76名真實急診病患的電子病歷，分別由兩位主治醫師與o1、4o兩個AI模型進行診斷，再由另外兩位不知道診斷來源的醫師進行評估。結果顯示，在急診初步分診階段——也就是資訊最少、時間壓力最大的環節——o1模型給出「完全正確或接近正確診斷」的比例達到67%，而兩位人類醫師分別為55%與50%。

研究強調，所有資料均未經過預處理，AI看到的就是電子病歷裡原始記錄的內容。研究共同主著者、哈佛AI實驗室負責人Arjun Manrai表示：「我們用幾乎所有基準測試了這個AI模型，它超越了過去的模型，也超越了我們的醫師基準線。」

「超越醫師」之後呢

數字很亮眼，但研究團隊本身保持了相當的謹慎。論文並未宣稱AI已準備好在急診室做出真正的生死決策，而是呼籲「迫切需要在真實臨床環境中進行前瞻性試驗」。

廣告合作

[email protected]

研究同樣指出幾個重要限制：這次測試僅涵蓋文字資訊，不包含影像、聲音或醫師親眼觀察到的病患狀態；現有研究也顯示，目前的基礎模型在處理非文字輸入方面仍有明顯局限。

共同著者、貝斯以色列醫師Adam Rodman在接受《衛報》採訪時說得直白：「目前對於AI診斷沒有任何正式的問責框架」，而且「病患仍然希望由人類來引導他們走過生死攸關的決定」。技術能力與社會信任之間，存在一道尚未跨越的鴻溝。

對華人世界的意義：機會與落差並存

這項研究的影響，在不同的華人社會語境下有著截然不同的解讀空間。

在台灣，健保資料庫是全球最完整的醫療數據庫之一，AI醫療研究的基礎設施相對成熟。台大醫院、長庚醫療體系等機構已有多項AI輔助診斷的研究計畫，這類國際研究結果將進一步推動相關政策討論與臨床試驗的優先排序。

在中國大陸，醫療AI的發展路徑則截然不同。阿里健康、騰訊醫療、百度健康等科技巨頭已深度介入醫療AI領域，政府也將AI醫療列為重點發展方向。然而，中國的AI發展在大型語言模型領域受到算力管制的影響，與OpenAI的o1模型之間存在一定差距——這項研究的結果，某種程度上也是一面照出技術落差的鏡子。

對於東南亞的華人社群而言，醫療資源分配不均的問題更為迫切。在偏遠地區或醫師資源稀缺的地方，AI輔助診斷的實際價值可能遠高於它在頂尖醫學中心的象徵意義。

值得關注的是，無論哪個市場，醫療AI的監管框架都還在摸索階段。台灣的醫療器材管理法、中國大陸的AI醫療器械審批制度，都面臨如何跟上技術發展速度的挑戰。