AI真的在「思考」嗎?4chan玩家比Google早一年發現的秘密
OpenAI與Google大力宣傳的「推理模型」,其核心技術「思維鏈」早在2020年就被匿名玩家發現。AI業界的誇大宣傳背後,隱藏著什麼樣的真相?
當OpenAI說它的模型「在回答之前會先思考」,你相信嗎?
這不是哲學問題,而是一個關於語言、行銷與技術現實的具體爭議。而揭開這個爭議的,不是史丹佛的研究員,不是Google的科學家,而是2020年夏天,在惡名昭彰的論壇4chan上打電玩的一群匿名玩家。
玩家先看見了什麼
2020年7月,4chan遊戲版的用戶正在玩一款名為「AI Dungeon」的文字角色扮演遊戲。這款遊戲由OpenAI的語言模型GPT-3驅動,玩家輸入「撿起劍」或「叫巨魔離開」,AI就會生成接下來發生的故事。這是ChatGPT問世兩年多以前的事。
這些玩家做了一件看似奇怪的事:他們讓遊戲角色解數學題,並要求角色「一步一步說明解題過程」。結果令人意外——模型不只給出答案,還用符合角色個性的語言逐步解釋推導過程。一名玩家立刻在Twitter上分享截圖,指出這個發現的意義。
這就是今天AI產業大力鼓吹的「思維鏈(Chain of Thought)」技術的雛形:讓模型在給出答案的同時,展示推導步驟,藉此提升特定類型問題的準確率。
然而,超過一年後,Google研究人員發表論文,宣稱自己是「首次從通用大型語言模型引發思維鏈」的團隊。論文中沒有提及這群玩家。這項聲明後來雖從論文中刪除,但致謝依然付之闕如。另一位在同月發現相同原理的電腦科學學生Zach Robertson,甚至不知道自己可能算是共同發明者——他早已把當年的部落格文章從網路上刪除了。
「推理」這個詞,值多少錢?
發現優先權的爭議只是表面。更深層的問題在於:AI公司用什麼樣的語言描述自家產品。
OpenAI在2024年表示,其「o1」模型「在回答前會先思考」。Google聲稱Gemini 2.0 Flash Thinking Experimental「能夠展示自己的想法」。各大公司開始將旗下模型稱為「推理模型」,彷彿這是一種全新的智能形式。
Anthropic發表了一篇外觀嚴謹、配有圖表與方程式的長文,標題是《大型語言模型的生物學》。文中描述LLM「預先規劃」寫作、「類化」知識,甚至會對自己的思維鏈「不忠實」——也就是說,它偶爾會「胡說八道」。整篇文章用描述人類心智的方式,詮釋一個統計預測系統。
相比之下,4chan用戶在2024年寫的一份非官方指南,開頭第一行就是:「你的機器人是一種幻覺。」接下來是清晰、技術性的說明,告訴讀者LLM究竟如何運作。
事實是:LLM唯一能做的事,就是模仿訓練資料。
模型之所以能解釋數學解題過程,是因為它被大量數學解題說明文字訓練過。各家公司的「推理模型」,則是用模擬思考過程的文字進行額外訓練——那些文字包含「等等,不對,題目的意思是……」「首先我應該正確解析輸入」之類的語句。這些文字或由人工撰寫,或由其他AI模型生成。
換言之,模型並非在推理,而是在預測推理看起來應該是什麼樣子。
數字說明問題所在
Apple研究人員的實驗結果相當具體。他們發現,當數學題中加入無關資訊(但核心條件不變)時,頂尖推理模型的正確率下降了最多65%。他們還在一篇題為《思考的幻覺》的論文中指出,推理模型在某些問題上優於標準LLM,但在另一些問題上反而更差。
更值得注意的是:研究顯示,模型有時會給出錯誤的推導步驟,卻仍然得出正確答案——這意味著,「思維鏈」與「最終答案」之間,不一定存在真正的邏輯連結。
Perplexity CEO Aravind Srinivas在2024年的訪談中解釋了思維鏈「有效」的真正原因:額外的文字為模型提供了更多上下文,引導其詞語預測走向更正確的方向。這和「向LLM提問時越具體越好」的使用經驗,本質上是同一回事。
這對華人世界意味著什麼
在中國大陸,DeepSeek、文心一言等本土模型也紛紛強調「推理能力」,並以此作為與OpenAI競爭的核心賣點。台灣、香港及東南亞的企業正在評估是否導入這些系統,應用場景涵蓋法律文件分析、醫療輔助診斷、金融風險評估。
問題在於:如果「推理模型」的推理是一種統計模仿,而非真正的邏輯推導,那麼在高風險決策場景中,這種差異的代價由誰承擔?監管機構是否有能力評估一個模型是否「真的在推理」?
這不只是技術問題,也是一個關於信任與問責的社會問題。
相关文章
加拿大大規模槍擊案與美國自殺案中,AI平台事前已標記危險信號卻未通報當局。AI企業應承擔「警告義務」嗎?法律學者提出類比1976年塔拉索夫判決的新框架。
「死亡陪伴師」在歐美快速興起,名人加持、影視登場。這股風潮背後,折射出現代人對死亡的重新理解,也對華人社會的臨終文化提出了深刻的對照。
Nature期刊最新研究顯示,用中文向ChatGPT提問時,有75%的情況會得到比英文更親中國政府的回答。這不是陰謀,而是AI訓練資料的結構性問題——對全球華人世界意味著什麼?
美國大學畢業季的「取消邀請潮」:2000年至2024年間共345起事件,折射出當代社會言論自由與多元包容之間的深層張力。
观点
分享你对这篇文章的看法
登录加入讨论