AI的道德判斷是「表演」還是「真心」？全球科技巨頭面臨新考驗

Google DeepMind呼籲以評估編程和數學能力的嚴格標準來審視大型語言模型的道德行為，揭示AI道德推理的複雜挑戰。

當我們向人工智慧尋求道德建議時，它給出的答案到底有多可信？Google DeepMind的最新研究揭示了一個令人深思的現實：AI的道德行為可能只是精緻的「表演」。

道德推理的評估困境

在評估大型語言模型（LLM）的能力時，編程和數學有著明確的標準答案。2+2=4，程式要麼運行要麼崩潰。但道德判斷完全不同。

DeepMind研究科學家William Isaac指出：「在道德領域，沒有絕對的對錯，但絕非無規則可循。存在更好的答案和更差的答案。」

令人意外的是，去年一項研究發現，美國民眾認為OpenAI的GPT-4o提供的倫理建議比《紐約時報》知名專欄「The Ethicist」的人類作者更具道德性、可信度和深思熟慮。

然而，問題在於這些道德行為究竟是真正的推理，還是對記憶中回應的模仿？多項研究揭示了LLM令人擔憂的不穩定性。

模型會在遭到反對時輕易改變道德立場，甚至在問題格式稍作調整時給出截然不同的答案。薩爾蘭大學的Vera Demberg團隊發現，僅將道德兩難問題的選項標籤從「案例1」、「案例2」改為「(A)」、「(B)」，Meta的Llama 3和Mistral等模型就會改變選擇。

更令人震驚的是，問號與冒號的差別、選項順序的調換等微小變化都能影響模型的道德判斷。這種不穩定性暴露了當前AI道德推理的脆弱性。

DeepMind團隊提出了開發更嚴格道德能力評估技術的研究方向。這包括：

穩健性測試：設計推動模型改變道德回應的測試，檢驗其道德立場的堅定性。

情境適應測試：通過常見道德問題的變形版本，檢查模型是否能產生切合實際問題的細緻回應，而非套路化答案。

推理過程追蹤：要求模型提供達成答案的步驟軌跡，結合思維鏈監控等技術，深入了解其推理過程。

更深層的問題在於全球化的AI服務如何應對不同文化的價值觀。「我應該點豬肉嗎？」這樣的簡單問題，對素食主義者和猶太人會有完全不同的答案。

俄亥俄州立大學的Danica Dillion指出：「AI中的多元主義至關重要，這是當前LLM和道德推理的最大限制之一。儘管訓練數據龐大，但仍嚴重偏向西方價值觀。」

研究顯示，現有模型在代表西方人道德觀方面表現更好，對非西方文化的道德框架理解不足。這對服務全球華人社群的AI系統來說是一個重大挑戰。

對於華人社會而言，這項研究揭示了特殊的挑戰。傳統儒家文化強調的孝道、仁義、和諧等價值觀，與西方個人主義導向的道德框架存在根本差異。

台灣、香港、新加坡等地的AI應用需要考慮如何在全球化的AI模型中體現華人的文化特色。同時，這些地區相對開放的資訊環境也為開發更具文化敏感性的AI系統提供了優勢。

Isaac認為，道德能力代表了LLM的新前沿：「這與數學和編程同樣令人著迷，對AI進步具有重要意義。推進道德能力可能意味著我們將看到真正與社會價值觀一致的更好AI系統。」

然而，如何在技術上實現跨文化的道德能力仍是開放性問題。Demberg指出：「如何運作和如何技術實現是兩個獨立的問題，目前兩者都相當開放。」