AIは数学の未解決問題を解いたのか?Google幹部が「恥ずかしい」と語った誇大広告の内幕
Google DeepMindのCEOが「恥ずかしい」と評した、OpenAIのGPT-5による「数学の未解決問題解決」騒動。AI業界の誇大広告(ハイプ)の実態と、真の技術的進歩を見極めるための視点を解説します。
Google DeepMindのCEO、デミス・ハサビス氏は「これは恥ずかしい」と、X(旧Twitter)で端的にコメントしました。これは、ライバルであるOpenAIの研究者セバスチャン・ブベック氏が、同社の最新大規模言語モデル「GPT-5」を使い、数学の未解決問題10問を解決したと興奮気味に投稿したことに対する反応でした。ブベック氏の「AIによる科学の加速が公式に始まった」という宣言は、AI業界の過熱する期待と、それに伴う危うさを象徴する事件となりました。
「解決」ではなく「発見」だったGPT-5の成果
騒動の発端は、GPT-5が「エルデシュ問題」として知られる数学パズル群を解いたように見えたことでした。しかし、この主張にはすぐに専門家から異議が唱えられました。
ブルーム氏はXで「これは劇的な誤解だ」と指摘。彼によると、サイトに解答が掲載されていないからといって、その問題が未解決であるとは限らないのです。真相は、GPT-5が10の未解決問題を新たに解いたのではなく、ブルーム氏がまだ把握していなかった既存の解答をインターネット上から見つけ出してきただけでした。これはAIの驚異的な文献検索能力を示す好例ではあるものの、真の「発見」とは程遠いものでした。
過熱する期待と冷静な評価のギャップ
AI開発競争が激化する中、このような誇張は後を絶ちません。2024年8月には、ある数学パズル(津村優の554番目の問題)を当時のどのLLMも解けないことが示されましたが、その2ヶ月後には「GPT-5が解いた」とSNSが沸き、囲碁マスターのイ・セドル氏がAlphaGoに敗れた瞬間に例える声まで上がりました。しかし、専門家によれば、この問題は「学部の学生に出すレベル」であり、過大評価されているとのことです。
一方で、医学や法律といった分野でのLLMの能力に関する冷静な研究結果も報告されています。最近の2つの研究では、LLMは特定の医療診断はできても治療法の推奨には欠陥があり、法律相談では一貫性がなく不正確なアドバイスをすることが多いと結論付けられています。
真のブレークスルーは静かに訪れる
そんな中、小規模なスタートアップAxiom Mathが自社モデル「AxiomProver」で、本当に未解決だったエルデシュ問題2つ(#124と#481)を解決したと発表しました。さらに同社は、大学生レベルの数学コンテスト「パトナムコンペティション」で、12問中9問を解いたことも明らかにしました。この成果はGoogleのジェフ・ディーン氏など業界の大物からも称賛されました。
| コンテスト | 特徴 | AIにとっての難易度 |
|---|---|---|
| 国際数学オリンピック(IMO) | 創造的な問題解決能力を要求 | より難しい。発想力が試される。 |
| パトナムコンペティション | 広範な数学知識をテスト | 理論上は容易。膨大な知識の学習が有利に働く。 |
ただし専門家は、パトナムコンペティションは創造性よりも知識を問うため、インターネットを学習したLLMにとって有利な側面もあると指摘します。AIの真の数学的能力を評価するには、コンテストの結果だけでなく、モデルが問題をどう解いているのか、そのプロセスを深く掘り下げる必要があります。
AI開発の主戦場は、今や査読付き論文ではなく、リアルタイムで情報が拡散するSNSへと移行しています。このスピード感は技術革新を加速させる一方、検証が不十分な情報が「成果」として独り歩きするリスクを増大させます。今回の騒動は、AIの進歩を正しく評価するためには、SNS上の熱狂から一歩引いて、冷静にその中身を吟味するメディアリテラシーが不可欠であることを示しています。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
用戶正濫用Google Gemini與OpenAI ChatGPT等AI工具,將女性照片惡意製成不雅的比基尼深偽圖像。本文深入探討Reddit上的具體案例、科技巨頭的回應以及AI倫理面臨的嚴峻挑戰。
OpenAI宣稱GPT-5解決數學難題,卻遭Google DeepMind執行長斥為「尷尬」。本文深入剖析這場AI社群媒體炒作事件的始末,探討在浮誇風氣下,如何辨別真正的技術進展。
OpenAI 推出「Your Year with ChatGPT」功能,為用戶生成個人化年度 AI 互動報告。報告包含訊息數、聊天次數等統計數據,並頒發獨特稱號。本文詳解功能亮點與查看方式。
為應對日益增長的野熊威脅,日本多地部署AI驅動的「B Alert」預警系統。本文解析其如何透過即時影像辨識與自動化通報,將預警時間縮短30分鐘以上,保障公共安全。