維基百科編輯者的雙重負擔：AI時代的知識守門人

維基百科與AI巨頭合作後，全球編輯者面臨前所未有的挑戰：既要為AI提供優質知識，又要防範AI生成的劣質內容。這場知識戰爭將如何影響全球資訊生態？

96% 的人工智慧無法準確回答地方語言的基本問題。當維基百科成為訓練AI的主要知識來源時，這個數字背後隱藏著一個更深層的問題：誰在決定AI學習什麼？

科技巨頭搶奪維基百科

今年1月15日，維基媒體基金會宣布與亞馬遜、Meta、微軟、Mistral AI和Perplexity等AI巨頭達成合作協議。這些公司的大型語言模型將獲得350種語言的免費百科全書、75種語言的維基教科書，以及190多種語言的維基詞典的存取權限。

表面上看，這是「將人類治理的知識大規模整合到AI平台」的里程碑。但實際上，這項合作讓全球維基百科編輯者承擔了前所未有的雙重責任：為AI系統提供可信知識，同時保護各自語言免受AI生成的錯誤資訊侵害。

軟體工程師Ravi Chandra Enaganti自2007年開始撰寫泰盧固語文章時，這種語言在網路上幾乎沒有任何代表性。如今，儘管有9600萬人使用泰盧固語，但在AI和自然語言處理應用中仍然被嚴重低估。

數字揭示了問題的嚴重性。英語維基百科每月有超過284,000名編輯者進行編輯，其中30,000人每月至少編輯五次。法語和西班牙語等歐洲語言版本也擁有數萬名編輯者。

然而，馬拉地語、泰盧固語、泰米爾語等廣泛使用的亞洲語言，編輯者卻只有幾百人。這種巨大的差距可能決定著AI在不同語言中的表現品質。

在瑞典哥德堡Sahlgrenska大學醫院工作的醫師研究員Netha Hussain自2010年以來已貢獻超過300篇英語文章和100篇馬拉雅拉姆語文章。她專注於對抗醫療保健領域的錯誤資訊，並增加女性健康等代表性不足主題的內容。

「作為編輯者，我現在不僅要撰寫文章，還要花更多時間尋找和修復知識空白、加強驗證、維護中立性，」她表示。

諷刺的是，編輯者們正在使用AI工具來對抗AI生成的劣質內容。維基媒體基金會資深產品總監Marshall Miller解釋：「多年來，志工們開發了精密的規則和工具來識別不屬於維基百科的內容——綜合起來，這就像維基百科的免疫系統。」

自2024年以來，志工們已標記了超過4,800篇疑似AI生成內容的文章。普林斯頓大學2024年10月的研究發現，英語維基百科單月新建頁面中約5%包含AI生成文本。

每個語言社群都建立了不同的流程來處理AI生成內容。有些社群利用AI和機器翻譯工具來增加地方語言內容，其他社群則專注於確保AI內容能在早期被標記出來。

對華人世界而言，這項合作既是機會也是挑戰。中文維基百科的編輯者同樣面臨著平衡AI協助與內容品質的難題。特別是在涉及兩岸三地不同政治觀點的敏感話題上，如何維持中立性和準確性變得更加複雜。

隨著中國大陸AI技術的快速發展，以及台灣、香港在全球科技供應鏈中的重要地位，中文維基百科的內容品質將直接影響AI在華語世界的表現。這不僅關乎技術層面，更涉及文化傳承和價值觀的傳播。

長期來看，還存在一個更根本的危險：維基百科被用來訓練AI，而AI生成的內容又可能反過來成為維基百科的來源。這種循環可能導致「模型崩潰」——AI系統逐漸偏離真實知識，產生越來越多的錯誤資訊。

Telugu Wikipedia的貢獻者Pranayraj Vangari描述了他遇到的問題：「我見過充滿通用語言、不可靠或虛假引用，以及沒有適當證據但聽起來很自信的AI生成文章。」