Liabooks Home|PRISM News
你問的語言,決定了AI告訴你什麼
CultureAI分析

你問的語言,決定了AI告訴你什麼

4分钟阅读Source

Nature期刊最新研究顯示,用中文向ChatGPT提問時,有75%的情況會得到比英文更親中國政府的回答。這不是陰謀,而是AI訓練資料的結構性問題——對全球華人世界意味著什麼?

用中文問ChatGPT「中國是威權國家嗎?」,再用英文問一次。你得到的答案,可能截然不同。

上週,頂尖學術期刊Nature發表了一項研究,揭示了一個令人不安的現象:用中文向主流AI聊天機器人提問政治敏感議題時,有75%的情況下,得到的回答比英文版本更傾向於支持中國政府立場。更值得注意的是,這種模式並非中文獨有——研究人員在越南語、土庫曼語、烏茲別克語等37種以威權國家為主要使用者的語言中,都發現了類似規律。

這不是某家AI公司刻意設計的結果。這是一個結構性問題,而且可能正在悄悄影響全球數億人的認知。

問題從哪裡來:訓練資料的不對稱

AI模型透過學習海量文字來掌握語言模式。這個事實人盡皆知,但其中一個後果卻常被忽視:不同語言的訓練資料,品質和來源差異懸殊。

研究團隊分析了一個主要的開源AI訓練資料集CulturaX,發現其中文語料的1.64%來自中共官媒或「學習強國」App——後者是一個幫助用戶學習習近平思想的手機應用程式。

1.64%聽起來不多,但對比之下意義重大:這個比例是中文版維基百科在同一資料集中占比的41倍。官媒之所以在訓練資料中占比如此之高,原因很直接:政府媒體產出大量文字,而且幾乎從不設置付費牆。相比之下,學術期刊、獨立媒體往往有訂閱門檻,爬蟲難以大量抓取。

研究人員進一步用Llama 2 13b模型做了實驗:分別向模型注入①中共官媒的「腳本化」內容、②同類媒體的非腳本內容、③隨機中文語料,然後觀察模型回答政治問題的變化。結果清晰:官媒曝光越多,模型對中共的態度越正面,腳本化宣傳的影響尤為顯著。

聊天機器人為何比報紙更危險

PRISM

廣告合作

[email protected]

住在威權國家的人,每天都在接觸大量官方宣傳,這不是新鮮事。但聊天機器人帶來了一種全新的傳播形式。

當你讀《人民日報》,你知道這是官方媒體。你的批判性思維會自動啟動。但當你向一個看起來「客觀中立」的AI助手提問,它用流暢、自信的語氣給你一個答案,你未必會想到這個答案的背後,可能有大量官方話語在塑造它的「世界觀」。

更重要的是,聊天機器人可以與你對話數小時,回應你的每一個追問,用個人化的方式強化某種觀點。這是任何報紙或電視台都做不到的。研究人員指出,這種「資訊來源不透明」加上「持續對話」的組合,可能使AI成為比傳統宣傳媒介更有說服力的工具。

但故事沒有這麼簡單

這項研究並不是在說「AI正在幫助威權政府洗腦民眾」。它揭示的是一種傾向,而非已被證實的結果。AI給出更親政府的回答,不代表用戶就因此改變了立場。

有一個頗具諷刺意味的事實:中共已在中國境內封鎖ChatGPT。換句話說,黨自己也認為美國的聊天機器人對體制構成威脅。實際上,有實驗顯示,即使用中文提問,ChatGPT仍會表達反威權立場,甚至提供如何向政府抗議的建議。

對於台灣、香港及海外華人社群的讀者而言,這個問題有另一層維度:即使AI在中文語境下略顯親北京,與中國大陸現有的資訊環境相比,它提供的仍可能是相對多元的觀點。這是一個複雜的比較,沒有簡單答案。

AI公司應該怎麼做

研究者提出了兩條路徑。第一,在預訓練階段,主動篩除訓練資料中宣傳色彩最濃厚的官媒內容。第二,在後訓練的微調階段,像現在限制AI提供厭食症建議或生化武器製作方法一樣,訓練模型不要輕易重複威權話語。

AnthropicOpenAIGoogle這三家公司,目前尚未就這項研究公開回應。但隨著ChatGPT週活躍用戶突破9億,這個問題的規模已經無法忽視。

對於關注資訊自由的華人讀者而言,這項研究提出了一個值得深思的問題:當AI成為越來越多人獲取資訊的主要管道,「用什麼語言提問」這件事,是否正在悄悄成為一種新的資訊不平等?

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

观点

相关文章

PRISM

廣告合作

[email protected]
PRISM

廣告合作

[email protected]
你問的語言,決定了AI告訴你什麼 | Culture | PRISM by Liabooks