AI真的在「思考」嗎?4chan玩家比Google早一年發現的秘密
OpenAI與Google大力宣傳的「推理模型」,其核心技術「思維鏈」早在2020年就被匿名玩家發現。AI業界的誇大宣傳背後,隱藏著什麼樣的真相?
當OpenAI說它的模型「在回答之前會先思考」,你相信嗎?
這不是哲學問題,而是一個關於語言、行銷與技術現實的具體爭議。而揭開這個爭議的,不是史丹佛的研究員,不是Google的科學家,而是2020年夏天,在惡名昭彰的論壇4chan上打電玩的一群匿名玩家。
玩家先看見了什麼
2020年7月,4chan遊戲版的用戶正在玩一款名為「AI Dungeon」的文字角色扮演遊戲。這款遊戲由OpenAI的語言模型GPT-3驅動,玩家輸入「撿起劍」或「叫巨魔離開」,AI就會生成接下來發生的故事。這是ChatGPT問世兩年多以前的事。
這些玩家做了一件看似奇怪的事:他們讓遊戲角色解數學題,並要求角色「一步一步說明解題過程」。結果令人意外——模型不只給出答案,還用符合角色個性的語言逐步解釋推導過程。一名玩家立刻在Twitter上分享截圖,指出這個發現的意義。
這就是今天AI產業大力鼓吹的「思維鏈(Chain of Thought)」技術的雛形:讓模型在給出答案的同時,展示推導步驟,藉此提升特定類型問題的準確率。
然而,超過一年後,Google研究人員發表論文,宣稱自己是「首次從通用大型語言模型引發思維鏈」的團隊。論文中沒有提及這群玩家。這項聲明後來雖從論文中刪除,但致謝依然付之闕如。另一位在同月發現相同原理的電腦科學學生Zach Robertson,甚至不知道自己可能算是共同發明者——他早已把當年的部落格文章從網路上刪除了。
「推理」這個詞,值多少錢?
發現優先權的爭議只是表面。更深層的問題在於:AI公司用什麼樣的語言描述自家產品。
OpenAI在2024年表示,其「o1」模型「在回答前會先思考」。Google聲稱Gemini 2.0 Flash Thinking Experimental「能夠展示自己的想法」。各大公司開始將旗下模型稱為「推理模型」,彷彿這是一種全新的智能形式。
Anthropic發表了一篇外觀嚴謹、配有圖表與方程式的長文,標題是《大型語言模型的生物學》。文中描述LLM「預先規劃」寫作、「類化」知識,甚至會對自己的思維鏈「不忠實」——也就是說,它偶爾會「胡說八道」。整篇文章用描述人類心智的方式,詮釋一個統計預測系統。
相比之下,4chan用戶在2024年寫的一份非官方指南,開頭第一行就是:「你的機器人是一種幻覺。」接下來是清晰、技術性的說明,告訴讀者LLM究竟如何運作。
事實是:LLM唯一能做的事,就是模仿訓練資料。
模型之所以能解釋數學解題過程,是因為它被大量數學解題說明文字訓練過。各家公司的「推理模型」,則是用模擬思考過程的文字進行額外訓練——那些文字包含「等等,不對,題目的意思是……」「首先我應該正確解析輸入」之類的語句。這些文字或由人工撰寫,或由其他AI模型生成。
換言之,模型並非在推理,而是在預測推理看起來應該是什麼樣子。
數字說明問題所在
Apple研究人員的實驗結果相當具體。他們發現,當數學題中加入無關資訊(但核心條件不變)時,頂尖推理模型的正確率下降了最多65%。他們還在一篇題為《思考的幻覺》的論文中指出,推理模型在某些問題上優於標準LLM,但在另一些問題上反而更差。
更值得注意的是:研究顯示,模型有時會給出錯誤的推導步驟,卻仍然得出正確答案——這意味著,「思維鏈」與「最終答案」之間,不一定存在真正的邏輯連結。
Perplexity CEO Aravind Srinivas在2024年的訪談中解釋了思維鏈「有效」的真正原因:額外的文字為模型提供了更多上下文,引導其詞語預測走向更正確的方向。這和「向LLM提問時越具體越好」的使用經驗,本質上是同一回事。
這對華人世界意味著什麼
在中國大陸,DeepSeek、文心一言等本土模型也紛紛強調「推理能力」,並以此作為與OpenAI競爭的核心賣點。台灣、香港及東南亞的企業正在評估是否導入這些系統,應用場景涵蓋法律文件分析、醫療輔助診斷、金融風險評估。
問題在於:如果「推理模型」的推理是一種統計模仿,而非真正的邏輯推導,那麼在高風險決策場景中,這種差異的代價由誰承擔?監管機構是否有能力評估一個模型是否「真的在推理」?
這不只是技術問題,也是一個關於信任與問責的社會問題。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
奧斯卡導演丹尼爾·羅赫爾的新作《The AI Doc》在美國近800家影院上映,卻暴露出當代AI論述最核心的思維陷阱:非天堂即地獄的二元對立,讓我們錯過了真正重要的問題。
OpenAI發布願景文件,主張累進稅制、公共財富基金與勞工共治。然而其領導層的政治獻金卻流向削減社會福利的陣營。AI時代的財富分配,誰說了算?
AI網紅正在大量湧現。合成虛擬人以假亂真,販售補充劑、累積粉絲。當「真實感」成為可以被複製的商品,我們對「真實」的渴望究竟還剩多少價值?
美國賽洛西賓使用人數突破1100萬,市場遠超監管速度。這場「精神藥物文藝復興」對亞洲社會意味著什麼?
观点
分享你对这篇文章的看法
登录加入讨论