AIは「考えている」のか？4chanゲーマーが先に知っていた真実

OpenAIやGoogleが「推論モデル」と呼ぶAIの中核技術「思考の連鎖」。その発見者は研究者ではなく、2020年の匿名ゲーマーたちだった。AI業界の誇大広告の裏に何があるのかを読み解く。

AIは本当に「考えている」のでしょうか。それとも、考えているように見えるだけなのでしょうか。

この問いに最初に実用的な答えを出したのは、GoogleやOpenAIの研究者ではありませんでした。2020年7月、悪名高いオンライン掲示板「4chan」のゲームスレッドに集まっていた匿名のゲーマーたちでした。

ゲーマーたちが先に見つけた「発見」

その夏、4chanのユーザーたちはテキストベースのロールプレイングゲーム「AI Dungeon」に夢中になっていました。このゲームはOpenAIの言語モデル「GPT-3」を搭載しており、プレイヤーが「剣を拾う」「トロルに立ち去るよう言う」などと入力すると、AIがその続きを生成する仕組みでした。ChatGPTが登場するより2年以上前のことです。

ゲーマーたちはゲーム内のキャラクターに数学の問題を解かせ、さらに「なぜそうなるのか、手順を説明しながら解いてほしい」と頼みました。すると奇妙なことが起きました。モデルは単に答えを出すだけでなく、キャラクターの個性に合わせた言葉で解法の手順を説明し始めたのです。あるユーザーはすぐにこう書き込みました。「数学の問題を解くだけでなく、そのキャラクターの個性に合った形で解いている」と。

これが今日「チェーン・オブ・ソート（思考の連鎖）」と呼ばれる技術の原型です。モデルが答えだけでなく、そこに至るまでの推論ステップを示すことで、特定の種類の問題における精度が向上するというものです。ゲーマーたちはその発見をすぐにTwitterに投稿しました。

ところが、1年以上後にGoogleの研究者たちが論文を発表した際、「汎用LLMからチェーン・オブ・ソートを引き出した最初の研究」と主張しました。ゲーマーたちへの言及はありませんでした（この主張は後に論文から削除されましたが、謝辞は加えられませんでした）。コンピュータサイエンスの学生だったZach Robertsonも同じ2020年7月に同様の発見をブログに投稿していましたが、本人はそれが重要な発見だとは気づかず、数年後にはブログごと削除していました。

「推論」という言葉の重さ

問題は、発見の優先権だけではありません。より本質的な問いは、AI企業が使う言葉にあります。

広告掲載について

[email protected]

OpenAIは2024年に自社の「o1」モデルについて「答える前に考える」と説明しました。Googleは「Gemini 2.0 Flash Thinking Experimental」が「自分の思考を示す能力を持つ」と述べました。各社は自社モデルを「推論モデル」と呼び始め、それがまるで新種の知性であるかのように印象づけています。

しかし、Anthropicが発表した「大規模言語モデルの生物学について」という論文調の記事でさえ、LLMが「計画を立て」「知識を一般化し」「チェーン・オブ・ソートに不誠実になる（つまり、たまに嘘をつく）」と、まるで人間の心のように描写していました。

対照的に、4chanのユーザーが2024年に書いた非公式ガイドは「あなたのボットは幻想だ」という見出しで始まり、LLMの仕組みを技術的に正確かつ簡潔に説明しています。LLMにできることは一つだけ、学習データを模倣することです。

LLMが数学の解法を説明できるのは、数学の解法の説明文で学習されているからです。各社の「推論モデル」は、「待って、違う。質問はこういう意味か」「まず入力を正しく解析しなければ」といった思考プロセスを模したテキストで追加学習されています。つまりモデルは推論しているのではなく、推論がどのように見えるかを予測しているのです。

Appleの研究者たちはこの問題を実験で示しました。最先端の推論モデルでも、数学の文章題に無関係な情報が加わるだけで、正答率が最大65%低下することが確認されています。また「思考の錯覚」と題した論文では、推論モデルが標準的なLLMより得意な問題がある一方、逆に苦手な問題も存在することが示されました。

なぜ今、この話が重要なのか

日本社会にとって、この議論は特に切実な意味を持ちます。少子高齢化による労働力不足を補う手段として、AI活用への期待は高まる一方です。製造業から医療、行政サービスまで、「AIが考えてくれる」という前提で導入が進んでいる領域は少なくありません。

ソニー、トヨタ、富士通といった日本企業も、AI技術の活用を加速させています。しかし、もし「推論モデル」が実際には推論しておらず、単に推論らしい言葉を生成しているだけであれば、どのような場面でその限界が露わになるでしょうか。

PerplexityのCEO、Aravind Srinivasは2024年のインタビューでこう説明しています。チェーン・オブ・ソートが機能するのは、追加の言葉がモデルに文脈を与え、単語予測の精度を高めるからだ、と。これはLLMに質問するとき、詳細を具体的に伝えるほど良い答えが返ってくるという経験則と同じ原理です。

2020年の4chanゲーマーの一人は、この仕組みをすでに直感的に理解していました。「人間の言語に基づいているんだから、人間に話しかけるように話せば、ちゃんとした返答が来るのは当然だよ」と。