用AI聆聽心聲：一場七年實驗的終結與啟示

美國新創Kintsugi歷經七年研發語音憂鬱偵測AI，卻因未能及時取得FDA核准而宣告關閉，並將技術開源。這場失敗揭示了醫療AI監管與商業化之間的深層矛盾。

一家公司花了七年試圖教會AI聽懂人心的疲憊，最終卻沒能等到市場的許可。

總部位於加州的新創公司Kintsugi，長達七年致力於開發一項技術：透過分析人的說話方式，偵測憂鬱症與焦慮症的跡象。然而，在未能及時取得FDA（美國食品藥物管理局）核准的情況下，公司決定關閉，並將大部分技術以開源形式釋出。部分技術甚至可能在醫療領域之外找到新的應用場景，例如偵測深偽（deepfake）語音。

它在聽什麼？不是你說了什麼，而是你怎麼說

心理健康的評估至今仍高度依賴問卷填寫與臨床訪談，與內科醫學動輒依靠血液檢查或影像掃描的方式截然不同。Kintsugi的核心洞察在於：憂鬱或焦慮的人，說話的「質地」會改變——音調、語速、停頓的節奏、聲音的張力——這些細微訊號往往連當事人自己都未察覺，卻可能被AI捕捉。

這個想法並非憑空而來。語音生物標記（vocal biomarkers）的研究已有數十年歷史，部分研究確實顯示憂鬱症患者的語音特徵存在統計上的差異。Kintsugi的野心，是將這些學術發現轉化為可在臨床或消費端實際使用的篩檢工具。

然而，從實驗室到市場，這條路比預期中漫長得多。

FDA這道牆，為何如此難以翻越

Kintsugi的失敗，核心在於監管時間與商業資金之間的結構性張力。FDA對醫療AI的審查標準極為嚴格，要求開發商提供大規模、多元族群的臨床驗證數據，證明工具的安全性與有效性。這對資金有限的新創公司而言，往往是一場與時間賽跑的消耗戰。

廣告合作

[email protected]

更深層的問題是：心理疾病的語音特徵，會因語言、文化、年齡與個人差異而大幅變化。一個在英語母語者身上訓練出的模型，放到粵語、閩南語或普通話使用者身上，準確率是否仍然可靠？這個問題，對於語言多元的華人世界尤其關鍵。

此外，訓練數據的代表性問題，在心理健康領域格外敏感。若模型主要以特定族群的語音數據訓練，對其他群體的誤判率可能更高——而誤判在精神科篩檢中的代價，可能遠比其他領域更為嚴重。

技術開源：失敗的句號，還是新故事的開頭

Kintsugi選擇將技術開源，是這個故事中值得細究的一筆。對於一家無法商業化的公司而言，開源既是一種務實的退場策略，也可以被解讀為對研究社群的一種貢獻姿態。

更耐人尋味的是技術的跨域潛力。語音真偽分析與情緒狀態分析，在演算法層面存在相當程度的重疊。隨著AI生成語音（voice cloning）技術的快速普及，深偽語音的偵測已成為資安與媒體可信度的重要議題。Kintsugi為醫療用途開發的技術，或許將在一個完全不同的戰場上發揮作用。

對於台灣、香港及東南亞的科技新創而言，這批開源資料或許是一個值得關注的起點——特別是在本地語言的語音心理健康應用仍屬空白的情況下。

華人世界的心理健康缺口

在許多華人社會中，心理健康的汙名化問題依然顯著。台灣衛福部統計顯示，有心理困擾卻未尋求專業協助的比例仍偏高；中國大陸的精神科醫師數量相對人口而言嚴重不足；東南亞華人社群則面臨語言與文化雙重障礙。

AI語音篩檢工具，在理論上可以降低求助門檻——不需要走進診間，不需要開口說「我需要幫助」，只需要說話，讓系統靜靜分析。這個願景對於文化上不習慣主動求助的群體，具有特殊的吸引力。

但這也正是它最危險的地方。當一項技術的使用門檻極低，監管與倫理的防護網就必須更加嚴密。誰有權取得這些語音數據？雇主、保險公司、政府機構——他們能用這些數據做什麼？

它在聽什麼？不是你說了什麼，而是你怎麼說

FDA這道牆，為何如此難以翻越

技術開源：失敗的句號，還是新故事的開頭

華人世界的心理健康缺口

观点

記者

相关文章