AI真的在「思考」嗎？4chan玩家比Google早一年發現的秘密

OpenAI與Google大力宣傳的「推理模型」，其核心技術「思維鏈」早在2020年就被匿名玩家發現。AI業界的誇大宣傳背後，隱藏著什麼樣的真相？

當OpenAI說它的模型「在回答之前會先思考」，你相信嗎？

這不是哲學問題，而是一個關於語言、行銷與技術現實的具體爭議。而揭開這個爭議的，不是史丹佛的研究員，不是Google的科學家，而是2020年夏天，在惡名昭彰的論壇4chan上打電玩的一群匿名玩家。

玩家先看見了什麼

2020年7月，4chan遊戲版的用戶正在玩一款名為「AI Dungeon」的文字角色扮演遊戲。這款遊戲由OpenAI的語言模型GPT-3驅動，玩家輸入「撿起劍」或「叫巨魔離開」，AI就會生成接下來發生的故事。這是ChatGPT問世兩年多以前的事。

這些玩家做了一件看似奇怪的事：他們讓遊戲角色解數學題，並要求角色「一步一步說明解題過程」。結果令人意外——模型不只給出答案，還用符合角色個性的語言逐步解釋推導過程。一名玩家立刻在Twitter上分享截圖，指出這個發現的意義。

這就是今天AI產業大力鼓吹的「思維鏈（Chain of Thought）」技術的雛形：讓模型在給出答案的同時，展示推導步驟，藉此提升特定類型問題的準確率。

然而，超過一年後，Google研究人員發表論文，宣稱自己是「首次從通用大型語言模型引發思維鏈」的團隊。論文中沒有提及這群玩家。這項聲明後來雖從論文中刪除，但致謝依然付之闕如。另一位在同月發現相同原理的電腦科學學生Zach Robertson，甚至不知道自己可能算是共同發明者——他早已把當年的部落格文章從網路上刪除了。

「推理」這個詞，值多少錢？

發現優先權的爭議只是表面。更深層的問題在於：AI公司用什麼樣的語言描述自家產品。

OpenAI在2024年表示，其「o1」模型「在回答前會先思考」。Google聲稱Gemini 2.0 Flash Thinking Experimental「能夠展示自己的想法」。各大公司開始將旗下模型稱為「推理模型」，彷彿這是一種全新的智能形式。

廣告合作

[email protected]

Anthropic發表了一篇外觀嚴謹、配有圖表與方程式的長文，標題是《大型語言模型的生物學》。文中描述LLM「預先規劃」寫作、「類化」知識，甚至會對自己的思維鏈「不忠實」——也就是說，它偶爾會「胡說八道」。整篇文章用描述人類心智的方式，詮釋一個統計預測系統。

相比之下，4chan用戶在2024年寫的一份非官方指南，開頭第一行就是：「你的機器人是一種幻覺。」接下來是清晰、技術性的說明，告訴讀者LLM究竟如何運作。

事實是：LLM唯一能做的事，就是模仿訓練資料。

模型之所以能解釋數學解題過程，是因為它被大量數學解題說明文字訓練過。各家公司的「推理模型」，則是用模擬思考過程的文字進行額外訓練——那些文字包含「等等，不對，題目的意思是……」「首先我應該正確解析輸入」之類的語句。這些文字或由人工撰寫，或由其他AI模型生成。

換言之，模型並非在推理，而是在預測推理看起來應該是什麼樣子。

數字說明問題所在

Apple研究人員的實驗結果相當具體。他們發現，當數學題中加入無關資訊（但核心條件不變）時，頂尖推理模型的正確率下降了最多65%。他們還在一篇題為《思考的幻覺》的論文中指出，推理模型在某些問題上優於標準LLM，但在另一些問題上反而更差。

更值得注意的是：研究顯示，模型有時會給出錯誤的推導步驟，卻仍然得出正確答案——這意味著，「思維鏈」與「最終答案」之間，不一定存在真正的邏輯連結。

Perplexity CEO Aravind Srinivas在2024年的訪談中解釋了思維鏈「有效」的真正原因：額外的文字為模型提供了更多上下文，引導其詞語預測走向更正確的方向。這和「向LLM提問時越具體越好」的使用經驗，本質上是同一回事。

這對華人世界意味著什麼

在中國大陸，DeepSeek、文心一言等本土模型也紛紛強調「推理能力」，並以此作為與OpenAI競爭的核心賣點。台灣、香港及東南亞的企業正在評估是否導入這些系統，應用場景涵蓋法律文件分析、醫療輔助診斷、金融風險評估。

問題在於：如果「推理模型」的推理是一種統計模仿，而非真正的邏輯推導，那麼在高風險決策場景中，這種差異的代價由誰承擔？監管機構是否有能力評估一個模型是否「真的在推理」？

這不只是技術問題，也是一個關於信任與問責的社會問題。

玩家先看見了什麼

「推理」這個詞，值多少錢？

數字說明問題所在

這對華人世界意味著什麼

观点

記者

相关文章