AI為何把無毛貓認成大象?這個問題比你想的更嚴重
AI視覺系統與人類感知之間存在根本性的「表徵錯位」。從自動駕駛到醫療診斷,這個看似荒謬的錯誤揭示了當前AI部署中被低估的系統性風險。
一張無毛斯芬克斯貓的照片,任何人都不會認錯。但許多AI視覺系統會把它歸類為大象。
這不是笑話,也不是個別案例。這是一個關於「AI如何理解世界」的根本性問題——而這個問題的答案,正在悄悄影響著從自動駕駛到醫療診斷的每一個高風險應用場景。
AI看到的,和你看到的不一樣
美國視覺感知研究者的最新研究揭示了一個關鍵概念:表徵錯位(representational misalignment)。簡單說,就是AI組織視覺資訊的方式,與人類根本不同。
人類辨識物體時,依賴的不只是表面特徵。當你看到一個咖啡杯,你同時啟動了關於它的用途、使用情境、與其他物品的關係等一整套知識網絡。搬家時,你按尺寸分類它;整理廚房時,你把它放在其他飲用器皿旁邊。同一個杯子,在不同脈絡下,大腦的分類邏輯會自動調整。
AI的訓練邏輯截然不同。系統只需要學會「哪些像素模式對應哪個標籤」,就算完成任務。它不需要理解貓和大象在生態系統中的關係,也不需要知道停止標誌在交通情境中的意義。無毛貓的皮膚紋理在像素層面接近大象皮膚——於是,錯誤就這樣發生了。
從荒謬到危險:三個真實場景
這個「表徵錯位」在低風險場景下只是趣聞,但在高風險場景下,它的代價可能極為昂貴。
自動駕駛:一個被塗鴉或貼紙覆蓋的停止標誌,人類駕駛員憑形狀和脈絡立刻辨識。但依賴像素模式的AI可能將其誤判為廣告看板或其他路邊物件。在時速60公里的行駛中,這個判斷差異意味著什麼,不需要多加解釋。
醫療影像:研究已記錄到AI系統在分析醫療影像時,學會將圖像來源或反覆出現的技術雜訊與疾病關聯,而非學習真正的病變視覺特徵。準確率數字看起來很漂亮,但判斷依據是錯的。
對抗性攻擊:正因為AI依賴像素模式而非語意理解,攻擊者可以透過對圖像進行人眼難以察覺的微小修改,讓AI做出完全錯誤的判斷。這在資安和軍事應用領域已是不容忽視的威脅。
研究者提出的修正方向
問題已被清楚定義,解法也在探索中。一個有前景的方向是:在AI訓練過程中加入人類的相似性判斷資料。
具體做法是讓人類受試者回答「杯子更像玻璃杯還是碗?」這類問題,再將這些判斷資料納入AI訓練,引導系統學習物體之間的關係結構,而不只是標籤對應。目標是讓AI在做相似性判斷時,得出與人類相同的結論。
研究者特別強調,這與「價值對齊(value alignment)」是不同層次的問題。價值對齊討論的是AI是否追求人類想要的目標;表徵對齊討論的是AI是否以接近人類的方式理解世界。後者可能是前者的基礎,也可能是更容易量化和解決的問題。
華人科技圈的視角
這個議題對華人世界的科技發展具有特殊意涵。百度的自動駕駛、阿里巴巴的醫療AI、商湯科技的視覺辨識系統——這些已在大規模部署的應用,都面臨同樣的「表徵錯位」挑戰。
值得注意的是,中國在AI視覺辨識領域的訓練資料規模龐大,但「資料量」與「表徵對齊」是兩個不同的維度。更多資料不一定能解決AI用錯誤的特徵做出正確判斷的結構性問題。
台灣在半導體和AI硬體領域扮演關鍵角色,但在AI安全性的軟體研究上,如何在國際學術社群中建立更強的存在感,是值得思考的戰略問題。台積電的晶片跑著全球最先進的AI模型,但這些模型是否「安全」,答案並不在晶片裡。
從地緣政治角度看,AI安全性研究正在成為美中科技競爭的新戰場之一。當美國研究者發表「AI表徵錯位」的系統性研究,這不只是學術貢獻,也是在設定AI評估標準的話語權。誰定義「安全的AI」,誰就在規則制定上佔據先機。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
AI合成臉孔通過視訊面試、聲音複製詐騙2500萬美元——2024年美國網路犯罪損失達166億美元,年增33%。當攻擊比防禦快,我們還能信任什麼?
DNS、身份驗證、電子郵件、資安基礎設施——支撐現代網路的四大服務正高度集中於少數平台。這場看不見的集中化,正在重塑全球數位風險的樣貌。
AI代理人越來越依賴人類觀察物理世界,將人類當作API使用。這種趨勢背後隱藏著哪些風險和社會成本?
美軍在攻擊伊朗時使用Anthropic的Claude AI系統,標誌著人工智慧正式進入現代戰場,引發自主武器發展的深層思考
观点
分享你对这篇文章的看法
登录加入讨论