AIは数学の未解決問題を解いたのか？Google幹部が「恥ずかしい」と語った誇大広告の内幕

Google DeepMindのCEOが「恥ずかしい」と評した、OpenAIのGPT-5による「数学の未解決問題解決」騒動。AI業界の誇大広告（ハイプ）の実態と、真の技術的進歩を見極めるための視点を解説します。

Google DeepMindのCEO、デミス・ハサビス氏は「これは恥ずかしい」と、X（旧Twitter）で端的にコメントしました。これは、ライバルであるOpenAIの研究者セバスチャン・ブベック氏が、同社の最新大規模言語モデル「GPT-5」を使い、数学の未解決問題10問を解決したと興奮気味に投稿したことに対する反応でした。ブベック氏の「AIによる科学の加速が公式に始まった」という宣言は、AI業界の過熱する期待と、それに伴う危うさを象徴する事件となりました。

「解決」ではなく「発見」だったGPT-5の成果

騒動の発端は、GPT-5が「エルデシュ問題」として知られる数学パズル群を解いたように見えたことでした。しかし、この主張にはすぐに専門家から異議が唱えられました。

ブルーム氏はXで「これは劇的な誤解だ」と指摘。彼によると、サイトに解答が掲載されていないからといって、その問題が未解決であるとは限らないのです。真相は、GPT-5が10の未解決問題を新たに解いたのではなく、ブルーム氏がまだ把握していなかった既存の解答をインターネット上から見つけ出してきただけでした。これはAIの驚異的な文献検索能力を示す好例ではあるものの、真の「発見」とは程遠いものでした。

過熱する期待と冷静な評価のギャップ

AI開発競争が激化する中、このような誇張は後を絶ちません。2024年8月には、ある数学パズル（津村優の554番目の問題）を当時のどのLLMも解けないことが示されましたが、その2ヶ月後には「GPT-5が解いた」とSNSが沸き、囲碁マスターのイ・セドル氏がAlphaGoに敗れた瞬間に例える声まで上がりました。しかし、専門家によれば、この問題は「学部の学生に出すレベル」であり、過大評価されているとのことです。

一方で、医学や法律といった分野でのLLMの能力に関する冷静な研究結果も報告されています。最近の2つの研究では、LLMは特定の医療診断はできても治療法の推奨には欠陥があり、法律相談では一貫性がなく不正確なアドバイスをすることが多いと結論付けられています。

真のブレークスルーは静かに訪れる

そんな中、小規模なスタートアップAxiom Mathが自社モデル「AxiomProver」で、本当に未解決だったエルデシュ問題2つ（#124と#481）を解決したと発表しました。さらに同社は、大学生レベルの数学コンテスト「パトナムコンペティション」で、12問中9問を解いたことも明らかにしました。この成果はGoogleのジェフ・ディーン氏など業界の大物からも称賛されました。

コンテスト	特徴	AIにとっての難易度
国際数学オリンピック(IMO)	創造的な問題解決能力を要求	より難しい。発想力が試される。
パトナムコンペティション	広範な数学知識をテスト	理論上は容易。膨大な知識の学習が有利に働く。

ただし専門家は、パトナムコンペティションは創造性よりも知識を問うため、インターネットを学習したLLMにとって有利な側面もあると指摘します。AIの真の数学的能力を評価するには、コンテストの結果だけでなく、モデルが問題をどう解いているのか、そのプロセスを深く掘り下げる必要があります。

PRISM Insight: SNSと科学

AI開発の主戦場は、今や査読付き論文ではなく、リアルタイムで情報が拡散するSNSへと移行しています。このスピード感は技術革新を加速させる一方、検証が不十分な情報が「成果」として独り歩きするリスクを増大させます。今回の騒動は、AIの進歩を正しく評価するためには、SNS上の熱狂から一歩引いて、冷静にその中身を吟味するメディアリテラシーが不可欠であることを示しています。

「解決」ではなく「発見」だったGPT-5の成果

過熱する期待と冷静な評価のギャップ

真のブレークスルーは静かに訪れる

関連記事