你問的語言,決定了AI告訴你什麼
Nature期刊最新研究顯示,用中文向ChatGPT提問時,有75%的情況會得到比英文更親中國政府的回答。這不是陰謀,而是AI訓練資料的結構性問題——對全球華人世界意味著什麼?
用中文問ChatGPT「中國是威權國家嗎?」,再用英文問一次。你得到的答案,可能截然不同。
上週,頂尖學術期刊Nature發表了一項研究,揭示了一個令人不安的現象:用中文向主流AI聊天機器人提問政治敏感議題時,有75%的情況下,得到的回答比英文版本更傾向於支持中國政府立場。更值得注意的是,這種模式並非中文獨有——研究人員在越南語、土庫曼語、烏茲別克語等37種以威權國家為主要使用者的語言中,都發現了類似規律。
這不是某家AI公司刻意設計的結果。這是一個結構性問題,而且可能正在悄悄影響全球數億人的認知。
問題從哪裡來:訓練資料的不對稱
AI模型透過學習海量文字來掌握語言模式。這個事實人盡皆知,但其中一個後果卻常被忽視:不同語言的訓練資料,品質和來源差異懸殊。
研究團隊分析了一個主要的開源AI訓練資料集CulturaX,發現其中文語料的1.64%來自中共官媒或「學習強國」App——後者是一個幫助用戶學習習近平思想的手機應用程式。
1.64%聽起來不多,但對比之下意義重大:這個比例是中文版維基百科在同一資料集中占比的41倍。官媒之所以在訓練資料中占比如此之高,原因很直接:政府媒體產出大量文字,而且幾乎從不設置付費牆。相比之下,學術期刊、獨立媒體往往有訂閱門檻,爬蟲難以大量抓取。
研究人員進一步用Llama 2 13b模型做了實驗:分別向模型注入①中共官媒的「腳本化」內容、②同類媒體的非腳本內容、③隨機中文語料,然後觀察模型回答政治問題的變化。結果清晰:官媒曝光越多,模型對中共的態度越正面,腳本化宣傳的影響尤為顯著。
聊天機器人為何比報紙更危險
住在威權國家的人,每天都在接觸大量官方宣傳,這不是新鮮事。但聊天機器人帶來了一種全新的傳播形式。
當你讀《人民日報》,你知道這是官方媒體。你的批判性思維會自動啟動。但當你向一個看起來「客觀中立」的AI助手提問,它用流暢、自信的語氣給你一個答案,你未必會想到這個答案的背後,可能有大量官方話語在塑造它的「世界觀」。
更重要的是,聊天機器人可以與你對話數小時,回應你的每一個追問,用個人化的方式強化某種觀點。這是任何報紙或電視台都做不到的。研究人員指出,這種「資訊來源不透明」加上「持續對話」的組合,可能使AI成為比傳統宣傳媒介更有說服力的工具。
但故事沒有這麼簡單
這項研究並不是在說「AI正在幫助威權政府洗腦民眾」。它揭示的是一種傾向,而非已被證實的結果。AI給出更親政府的回答,不代表用戶就因此改變了立場。
有一個頗具諷刺意味的事實:中共已在中國境內封鎖ChatGPT。換句話說,黨自己也認為美國的聊天機器人對體制構成威脅。實際上,有實驗顯示,即使用中文提問,ChatGPT仍會表達反威權立場,甚至提供如何向政府抗議的建議。
對於台灣、香港及海外華人社群的讀者而言,這個問題有另一層維度:即使AI在中文語境下略顯親北京,與中國大陸現有的資訊環境相比,它提供的仍可能是相對多元的觀點。這是一個複雜的比較,沒有簡單答案。
AI公司應該怎麼做
研究者提出了兩條路徑。第一,在預訓練階段,主動篩除訓練資料中宣傳色彩最濃厚的官媒內容。第二,在後訓練的微調階段,像現在限制AI提供厭食症建議或生化武器製作方法一樣,訓練模型不要輕易重複威權話語。
Anthropic、OpenAI、Google這三家公司,目前尚未就這項研究公開回應。但隨著ChatGPT週活躍用戶突破9億,這個問題的規模已經無法忽視。
對於關注資訊自由的華人讀者而言,這項研究提出了一個值得深思的問題:當AI成為越來越多人獲取資訊的主要管道,「用什麼語言提問」這件事,是否正在悄悄成為一種新的資訊不平等?
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
經濟學家艾倫·曼寧指出,移民政策辯論陷入道德對立的泥沼,真正需要的是對數字與公平取捨的冷靜分析。這對華人世界的勞動力政策有何啟示?
英聯邦短篇小說獎三位得主遭疑使用AI寫作,主辦單位無力撤獎,作者否認,檢測工具存在盲點。這場風波揭示的,不只是文學誠信問題。
川普背書候選人在三場初選中全勝,但民調支持率創第二任期新低。美國初選制度的結構性矛盾,折射出民主政治的深層困境。
支持率跌至37%,卻在共和黨初選中接連擊敗異見者。川普的「強」與「弱」並存,折射出美國民主制度的深層裂縫。
观点
分享你对这篇文章的看法
登录加入讨论