你問的語言，決定了AI告訴你什麼 | Culture

Nature期刊最新研究顯示，用中文向ChatGPT提問時，有75%的情況會得到比英文更親中國政府的回答。這不是陰謀，而是AI訓練資料的結構性問題——對全球華人世界意味著什麼？

用中文問ChatGPT「中國是威權國家嗎？」，再用英文問一次。你得到的答案，可能截然不同。

上週，頂尖學術期刊Nature發表了一項研究，揭示了一個令人不安的現象：用中文向主流AI聊天機器人提問政治敏感議題時，有75%的情況下，得到的回答比英文版本更傾向於支持中國政府立場。更值得注意的是，這種模式並非中文獨有——研究人員在越南語、土庫曼語、烏茲別克語等37種以威權國家為主要使用者的語言中，都發現了類似規律。

這不是某家AI公司刻意設計的結果。這是一個結構性問題，而且可能正在悄悄影響全球數億人的認知。

問題從哪裡來：訓練資料的不對稱

AI模型透過學習海量文字來掌握語言模式。這個事實人盡皆知，但其中一個後果卻常被忽視：不同語言的訓練資料，品質和來源差異懸殊。

研究團隊分析了一個主要的開源AI訓練資料集CulturaX，發現其中文語料的1.64%來自中共官媒或「學習強國」App——後者是一個幫助用戶學習習近平思想的手機應用程式。

1.64%聽起來不多，但對比之下意義重大：這個比例是中文版維基百科在同一資料集中占比的41倍。官媒之所以在訓練資料中占比如此之高，原因很直接：政府媒體產出大量文字，而且幾乎從不設置付費牆。相比之下，學術期刊、獨立媒體往往有訂閱門檻，爬蟲難以大量抓取。

研究人員進一步用Llama 2 13b模型做了實驗：分別向模型注入①中共官媒的「腳本化」內容、②同類媒體的非腳本內容、③隨機中文語料，然後觀察模型回答政治問題的變化。結果清晰：官媒曝光越多，模型對中共的態度越正面，腳本化宣傳的影響尤為顯著。

聊天機器人為何比報紙更危險

廣告合作

[email protected]

住在威權國家的人，每天都在接觸大量官方宣傳，這不是新鮮事。但聊天機器人帶來了一種全新的傳播形式。

當你讀《人民日報》，你知道這是官方媒體。你的批判性思維會自動啟動。但當你向一個看起來「客觀中立」的AI助手提問，它用流暢、自信的語氣給你一個答案，你未必會想到這個答案的背後，可能有大量官方話語在塑造它的「世界觀」。

更重要的是，聊天機器人可以與你對話數小時，回應你的每一個追問，用個人化的方式強化某種觀點。這是任何報紙或電視台都做不到的。研究人員指出，這種「資訊來源不透明」加上「持續對話」的組合，可能使AI成為比傳統宣傳媒介更有說服力的工具。

但故事沒有這麼簡單

這項研究並不是在說「AI正在幫助威權政府洗腦民眾」。它揭示的是一種傾向，而非已被證實的結果。AI給出更親政府的回答，不代表用戶就因此改變了立場。

有一個頗具諷刺意味的事實：中共已在中國境內封鎖ChatGPT。換句話說，黨自己也認為美國的聊天機器人對體制構成威脅。實際上，有實驗顯示，即使用中文提問，ChatGPT仍會表達反威權立場，甚至提供如何向政府抗議的建議。

對於台灣、香港及海外華人社群的讀者而言，這個問題有另一層維度：即使AI在中文語境下略顯親北京，與中國大陸現有的資訊環境相比，它提供的仍可能是相對多元的觀點。這是一個複雜的比較，沒有簡單答案。

AI公司應該怎麼做

研究者提出了兩條路徑。第一，在預訓練階段，主動篩除訓練資料中宣傳色彩最濃厚的官媒內容。第二，在後訓練的微調階段，像現在限制AI提供厭食症建議或生化武器製作方法一樣，訓練模型不要輕易重複威權話語。

Anthropic、OpenAI、Google這三家公司，目前尚未就這項研究公開回應。但隨著ChatGPT週活躍用戶突破9億，這個問題的規模已經無法忽視。

對於關注資訊自由的華人讀者而言，這項研究提出了一個值得深思的問題：當AI成為越來越多人獲取資訊的主要管道，「用什麼語言提問」這件事，是否正在悄悄成為一種新的資訊不平等？

問題從哪裡來：訓練資料的不對稱

聊天機器人為何比報紙更危險

但故事沒有這麼簡單

AI公司應該怎麼做

觀點

相關文章