AI問診已成真，但你的健康能交給它嗎？

Microsoft、Amazon、OpenAI相繼推出醫療AI工具，每日回答5000萬個健康問題。便利背後，獨立評估缺席的隱憂讓專家憂心。華人世界該如何看待這波浪潮？

每天有5000萬個健康問題被輸入AI聊天框——這個數字，比許多國家的醫師總問診量還要龐大。

2026年3月，全球醫療AI的版圖在短短數週內發生了實質性的改變。Microsoft正式推出「Copilot Health」，允許用戶連結個人電子病歷，向AI提出具體的健康問題。就在幾天前，Amazon宣布將原本僅限One Medical會員使用的「Health AI」向大眾全面開放。加上OpenAI今年一月發布的「ChatGPT Health」，以及Anthropic的Claude在獲得授權後可存取用戶健康記錄，這場競賽的輪廓已經清晰：科技巨頭正在將醫療建議這件事，從診間搬進每個人的手機螢幕。

為什麼是現在？兩股力量的交匯

這波浪潮的形成，來自供需兩端的同步推進。

技術端，Microsoft AI健康部門副總裁、前外科醫師多明尼克·金表示，生成式AI在回答醫療問題方面已達到「顯著的能力進展」，這正是公司組建健康團隊的核心驅動力。需求端，Microsoft自己的數據揭示了一個更直接的現實：健康是Copilot行動應用上最熱門的討論主題，每日健康相關提問量高達5000萬次。

OpenAI健康AI團隊負責人卡蘭·辛格爾補充道，早在推出專屬健康產品之前，他們就已觀察到用戶使用ChatGPT詢問健康問題的速度「急速、急速地增長」。

這背後有一個不便說出口的真相：對很多人來說，看診太難了。掛號等待、費用昂貴、地理距離——這些障礙在全球普遍存在，在部分地區尤為嚴峻。紐約西奈山醫療系統首席AI官吉里什·納德卡尼說得直白：「這些工具之所以存在，是因為醫療可及性太低，對某些群體來說更是如此。」

對台灣、香港及東南亞華人社群而言，這個脈絡既熟悉又複雜。台灣擁有相對完善的全民健保，但基層診所壅塞、專科等待時間長的問題依然存在。香港的私立醫療費用高昂。東南亞各國的醫療資源分布更是極度不均。AI問診的吸引力，在這些場景中並不難理解。

便利的代價：誰來驗證這些工具是安全的？

廣告合作

[email protected]

然而，一個根本性的問題懸而未決：這些工具在大規模推出之前，是否經過了足夠嚴格的獨立評估？

目前，答案令人不安。

OpenAI設計並公開了「HealthBench」評估基準，用於測試AI在模擬醫療對話中的表現。驅動ChatGPT Health與Copilot Health的GPT-5在此基準上的得分顯著優於前代模型。但HealthBench本身有一個結構性缺陷：對話情境由AI生成，而非真實的人類互動。

牛津大學網路研究所博士候選人安德魯·賓恩的研究揭示了這道裂縫有多深。即使AI能從書面情境中準確識別病症，一個沒有醫學背景的普通用戶在AI協助下，能找到正確答案的比例僅有三分之一。原因在於：非專業用戶不知道該提供哪些資訊，也不知道如何正確解讀AI的回應。

西奈山醫療系統的研究更發現，ChatGPT Health有時會對輕症建議過度的醫療介入，同時又可能忽略真正的緊急狀況。貝斯以色列女執事醫療中心內科醫師亞當·羅德曼說了一句讓人難以忽視的話：「我們都知道人們會用它來診斷和管理病情」——不管介面上的免責聲明寫得多清楚。

相比之下，Google的做法提供了一個不同的參照。其醫療LLM「AMIE」在一項讓患者先與AI對話、再見醫師的臨床研究中，診斷準確率與真實醫師相當，且未出現重大安全疑慮。但Google明確表示，AMIE短期內不會對外開放，理由是「公平性、安全性測試等方面仍需進一步研究」。

中國大陸的平行宇宙

當西方科技巨頭在消費端醫療AI賽道上狂奔，中國大陸的情況呈現出不同的面貌。百度健康、阿里健康、騰訊醫典早已在醫療AI領域深耕多年，但主要模式是導流至線上問診平台，而非直接由AI提供診斷建議。監管框架方面，中國對AI醫療器械的審批設有明確路徑，但對ChatGPT這類通用AI的醫療使用場景，監管邊界同樣模糊。

值得關注的是，中國的醫療AI發展更多在機構端（醫院、影像診斷）而非消費端推進。這種路徑選擇，究竟是監管謹慎的結果，還是商業模式差異的體現，本身就是一個值得深究的問題。

「第三方評估」缺席的結構性困境

史丹佛大學醫學院教授奈加姆·沙赫領導的「MedHELM」框架，試圖建立一套跨任務的綜合醫療AI評估體系——目前GPT-5在此框架中排名第一。但沙赫坦承，MedHELM只評估單次回應，無法測試多輪對話的品質，而後者才是真實用戶的使用場景。更直白的是他的這句話：「你我都沒有辦法阻止這些公司發布產品，他們愛怎麼做就怎麼做。我們能做的，只是想辦法為評估基準籌資。」

這句話揭示了一個結構性困境：監管機構的速度跟不上技術迭代，學術界缺乏資金，而企業自我評估的公信力天然存疑。在這個真空地帶，數億用戶已經開始把自己的健康問題輸入聊天框。