Liabooks Home|PRISM News
AI解開數學懸案?一場被Google斥為「尷尬」的社群媒體鬧劇
TechAI分析

AI解開數學懸案?一場被Google斥為「尷尬」的社群媒體鬧劇

Source

OpenAI宣稱GPT-5解決數學難題,卻遭Google DeepMind執行長斥為「尷尬」。本文深入剖析這場AI社群媒體炒作事件的始末,探討在浮誇風氣下,如何辨別真正的技術進展。

「這太尷尬了。」Google DeepMind執行長德米斯·哈薩比斯(Demis Hassabis)在社群平台X上簡短評論道。他回應的是競爭對手OpenAI研究員塞巴斯蒂安·布貝克(Sébastien Bubeck)的一則興奮貼文,該貼文宣稱兩位數學家使用OpenAI最新的大型語言模型GPT-5,解決了10個懸而未決的數學問題。布貝克甚至高呼:「AI加速科學的時代已正式開始。」然而,這場看似驚人的突破,最終演變成一場揭示當前AI產業浮誇風氣的完美案例。

解決難題?不,是搜尋舊檔

事件的爭議點在於GPT-5看似解決了多個「埃爾德什問題」(Erdős problems)。但此說法很快遭到專家打臉。

布魯姆在X上直言:「這是嚴重的誤導。」他解釋,網站上沒有列出解答,不代表該問題未被解決,僅代表他本人不知道解答。事實真相是,GPT-5並非原創性地解決了10個問題,而是在浩瀚的網際網路中,找到了10個布魯姆未曾見過的「既有」解答。這固然展現了AI強大的文獻搜索能力,但與真正的科學發現相去甚遠。

言過其實:AI炒作的普遍現象

AI的軍備競賽中,這種誇大其詞的現象屢見不鮮。例如,一個名為「津村優第554號問題」的數學謎題,在2024年8月被證明當時所有LLM都無法解決。但兩個月後,社群媒體便因GPT-5成功破解而沸騰,甚至有人將其比作當年AlphaGo擊敗棋王李世乭的「李世乭時刻」。然而,專家指出,該問題的難度僅相當於「大學本科生的課堂習題」,社群反應顯然過度渲染。

與此同時,針對LLM在醫療和法律等領域能力的嚴謹評估也陸續出爐。近期兩份研究報告指出,LLM或可進行某些醫療診斷,但在治療建議方面存在缺陷;在法律諮詢上,則常給出不一致且錯誤的建議。研究結論直指:「迄今的證據完全無法支持那些誇大的宣傳。」

喧囂之外的真正進展

在一片喧囂中,新創公司Axiom Math的AI模型「AxiomProver」卻取得了實質性突破。該公司宣布,其模型已成功解決了兩個真正開放的埃爾德什問題(#124#481)。不僅如此,在被認為比國際數學奧林匹亞更難的普特南數學競賽(Putnam competition)中,AxiomProver12道題目中解出了9道,贏得了Google首席科學家Jeff Dean等業界巨擘的讚譽。

競賽特點對AI的挑戰性
國際數學奧林匹亞 (IMO)要求高度的創造性解題思維更困難,考驗模型的原創能力。
普特南數學競賽 (Putnam)測試廣泛的數學知識儲備理論上較易,因模型可從大量數據中學習知識。

但專家也提醒,普特南競賽更側重知識而非創造力,這對吸收了整個網際網路知識的LLM而言,具有天然優勢。要真正評斷AI的數學能力,不能僅看競賽成績,必須深入探究模型解決問題的具體過程。

PRISM Insight: 聲量與成果

當前的AI競賽中,社群媒體的「聲量」似乎已成為比同行評審更快的成果展示平台。這種模式加速了資訊傳播,卻也讓未經驗證的說法被迅速放大,造成公眾認知的混亂。這次事件敲響警鐘:在追求AI技術突破的同時,建立一個能區分「網路聲量」與「實際成果」的理性評估機制,對整個產業的健康發展至關重要。

本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。

AIOpenAI人工智慧GPT-5Google DeepMind數學炒作

関連記事

同意なきAIビキニ画像が拡散中 グーグルとOpenAIの対策は追いつくか
TechJP
同意なきAIビキニ画像が拡散中 グーグルとOpenAIの対策は追いつくか

グーグルGeminiやOpenAIのChatGPTといった生成AIを悪用し、同意なく女性の写真をビキニ姿のディープフェイクに加工する問題が深刻化。レディットでの事例や各社の対応、そして技術倫理の課題を解説します。

AIは数学の未解決問題を解いたのか?Google幹部が「恥ずかしい」と語った誇大広告の内幕
TechJP
AIは数学の未解決問題を解いたのか?Google幹部が「恥ずかしい」と語った誇大広告の内幕

Google DeepMindのCEOが「恥ずかしい」と評した、OpenAIのGPT-5による「数学の未解決問題解決」騒動。AI業界の誇大広告(ハイプ)の実態と、真の技術的進歩を見極めるための視点を解説します。

あなたのAI利用を振り返る、ChatGPT版「年末まとめ」が登場
TechJP
あなたのAI利用を振り返る、ChatGPT版「年末まとめ」が登場

OpenAIが、ユーザーの1年間のChatGPT利用状況を可視化する新機能「Your Year with ChatGPT」を発表。統計データやユニークな「称号」、AI生成の詩で2025年を振り返ります。利用方法や対象地域を解説。

AIがクマを24時間監視。日本で広がる早期警戒システム「Bアラート」の仕組み
TechJP
AIがクマを24時間監視。日本で広がる早期警戒システム「Bアラート」の仕組み

日本ではクマの出没が社会問題化する中、AIを活用した早期警戒システム「Bアラート」が導入されています。リアルタイム検知と自動通知で、住民の安全をどう守るのか、その仕組みと背景を分かりやすく解説します。