AI解開數學懸案？一場被Google斥為「尷尬」的社群媒體鬧劇

OpenAI宣稱GPT-5解決數學難題，卻遭Google DeepMind執行長斥為「尷尬」。本文深入剖析這場AI社群媒體炒作事件的始末，探討在浮誇風氣下，如何辨別真正的技術進展。

「這太尷尬了。」Google DeepMind執行長德米斯·哈薩比斯（Demis Hassabis）在社群平台X上簡短評論道。他回應的是競爭對手OpenAI研究員塞巴斯蒂安·布貝克（Sébastien Bubeck）的一則興奮貼文，該貼文宣稱兩位數學家使用OpenAI最新的大型語言模型GPT-5，解決了10個懸而未決的數學問題。布貝克甚至高呼：「AI加速科學的時代已正式開始。」然而，這場看似驚人的突破，最終演變成一場揭示當前AI產業浮誇風氣的完美案例。

解決難題？不，是搜尋舊檔

事件的爭議點在於GPT-5看似解決了多個「埃爾德什問題」（Erdős problems）。但此說法很快遭到專家打臉。

布魯姆在X上直言：「這是嚴重的誤導。」他解釋，網站上沒有列出解答，不代表該問題未被解決，僅代表他本人不知道解答。事實真相是，GPT-5並非原創性地解決了10個問題，而是在浩瀚的網際網路中，找到了10個布魯姆未曾見過的「既有」解答。這固然展現了AI強大的文獻搜索能力，但與真正的科學發現相去甚遠。

言過其實：AI炒作的普遍現象

在AI的軍備競賽中，這種誇大其詞的現象屢見不鮮。例如，一個名為「津村優第554號問題」的數學謎題，在2024年8月被證明當時所有LLM都無法解決。但兩個月後，社群媒體便因GPT-5成功破解而沸騰，甚至有人將其比作當年AlphaGo擊敗棋王李世乭的「李世乭時刻」。然而，專家指出，該問題的難度僅相當於「大學本科生的課堂習題」，社群反應顯然過度渲染。

與此同時，針對LLM在醫療和法律等領域能力的嚴謹評估也陸續出爐。近期兩份研究報告指出，LLM或可進行某些醫療診斷，但在治療建議方面存在缺陷；在法律諮詢上，則常給出不一致且錯誤的建議。研究結論直指：「迄今的證據完全無法支持那些誇大的宣傳。」

喧囂之外的真正進展

在一片喧囂中，新創公司Axiom Math的AI模型「AxiomProver」卻取得了實質性突破。該公司宣布，其模型已成功解決了兩個真正開放的埃爾德什問題（#124和#481）。不僅如此，在被認為比國際數學奧林匹亞更難的普特南數學競賽（Putnam competition）中，AxiomProver在12道題目中解出了9道，贏得了Google首席科學家Jeff Dean等業界巨擘的讚譽。

競賽	特點	對AI的挑戰性
國際數學奧林匹亞 (IMO)	要求高度的創造性解題思維	更困難，考驗模型的原創能力。
普特南數學競賽 (Putnam)	測試廣泛的數學知識儲備	理論上較易，因模型可從大量數據中學習知識。

但專家也提醒，普特南競賽更側重知識而非創造力，這對吸收了整個網際網路知識的LLM而言，具有天然優勢。要真正評斷AI的數學能力，不能僅看競賽成績，必須深入探究模型解決問題的具體過程。

PRISM Insight: 聲量與成果

當前的AI競賽中，社群媒體的「聲量」似乎已成為比同行評審更快的成果展示平台。這種模式加速了資訊傳播，卻也讓未經驗證的說法被迅速放大，造成公眾認知的混亂。這次事件敲響警鐘：在追求AI技術突破的同時，建立一個能區分「網路聲量」與「實際成果」的理性評估機制，對整個產業的健康發展至關重要。

解決難題？不，是搜尋舊檔

言過其實：AI炒作的普遍現象

喧囂之外的真正進展

関連記事