あなたのAIは誰の声で話しているか | Culture

週10億人が使うチャットボット。しかし権威主義国家の言語で質問すると、AIは親政府的な回答を返す傾向があることが、Nature誌掲載の研究で明らかになった。意図せざるプロパガンダの拡散とは何を意味するか。

同じ質問を、英語と中国語でChatGPTに投げかけてみる。返ってくる答えは、同じだろうか。

先週、科学誌Natureに掲載された研究が、この問いに対して不穏な答えを示した。中国語で政治的な質問をすると、75%のケースで、英語で尋ねた場合よりも中国政府に好意的な回答が返ってきたのだ。そして同様のパターンは、ベトナム語、トルクメン語、ウズベク語など、権威主義的な国家で主に話される37言語にわたって確認された。

「意図せざるプロパガンダ」はどこから来るのか

AIモデルは、膨大なテキストからパターンを学習する。これ自体はよく知られた事実だが、その帰結として見落とされがちな問題がある。学習データの構成が言語によって異なるため、LLM（大規模言語モデル）は必ずしもすべての言語で同じ答えを出さない、ということだ。

研究チームが着目したのは、この非対称性だ。権威主義国家で主に話される言語の場合、公開されているテキストの中に国家メディアのコンテンツが占める割合が高くなりやすい。政府系メディアは大量のテキストを産出し、しかも多くの場合、ペイウォール（課金壁）を持たない。科学誌や有料ニュースメディアとは対照的に、プロパガンダ媒体は誰でも無料で読める。

研究チームは、主要なオープンソース学習データセットCulturaXを分析した。その結果、中国語ドキュメントの1.64%が、中国共産党系メディアや習近平思想を学習するアプリ「学習強国」のテキストと一致していた。一見小さな数字に見えるが、文脈に置くと意味が変わる。この割合は、中国語版ウィキペディアの記事が占める割合の41倍に相当する。

次に研究チームは、学習データへの国家メディアの混入が実際にモデルの挙動を変えるかどうかを検証した。公開されている学習データを持つモデルLlama 2 13bに、①共産党系メディアの「脚本あり」コンテンツ、②同「脚本なし」コンテンツ、③ランダムな中国語文書、の三種類をそれぞれ追加学習させた。結果は明確だった。国家メディアへの露出が増えるほど、モデルの回答は中国共産党に好意的になった。特に「脚本化されたプロパガンダ」の影響が顕著だった。

チャットボットが「特別な説得力」を持つ理由

ここで立ち止まって考えたいのは、チャットボットが持つ独特の性質だ。

広告掲載について

[email protected]

権威主義国家に暮らす人々は、すでに大量のプロパガンダにさらされている。国営新聞を読めば、政府寄りの記事が並んでいることは誰でも知っている。情報源が明確だからこそ、受け手は批判的に読むことができる。

しかしチャットボットは違う。「中国は独裁国家ですか」と問えば、流暢な言葉で答えが返ってくる。その答えがどのようなテキストから学習されたかは、ユーザーには見えない。さらに、チャットボットは対話形式で何時間でも付き合ってくれる。懐疑的な追加質問にも、もっともらしい答えを返し続ける。国営新聞にはできないことだ。

この「情報源の不透明性」と「対話の継続性」が組み合わさることで、チャットボットは従来のプロパガンダ媒体よりも説得力を持ちうる、と研究者たちは指摘する。

ただし、話は単純ではない

もっとも、この研究が示すのは「AIが権威主義政府を助けている」という結論ではない。研究が示したのは、権威主義国家のユーザーがより親政府的な回答を受け取る「傾向がある」ということだ。それが実際に人々の意見を変えているかどうかは、別の問いである。

逆説的な事実もある。中国共産党はChatGPTを国内で禁止している。つまり党自身が、アメリカのチャットボットを「体制に対して危険なもの」と見なしている。実際、あるメディアの実験では、ChatGPTは中国語で質問されても反権威主義的な見解を示し、政府への抗議方法についてのアドバイスまで提供したという。

また、仮にChatGPTが中国語で多少親政府的な回答をするとしても、それが中国国内の他の情報源と比べてどの程度バイアスが強いかは別の話だ。より偏った情報環境の中では、相対的に「マシ」な情報源になりうる可能性もある。

AI企業は何をすべきか

研究者たちは二つの対策を提案している。一つは学習前の段階で、最もプロパガンダ色の強い国家メディアのコンテンツを学習データから除外すること。もう一つは学習後の調整段階で、独裁者の主張を鵜呑みにしないようモデルを訓練すること。現在、摂食障害の助長や生物兵器の製造方法などについて出力を制限しているのと同じアプローチだ。

Anthropic、OpenAI、Googleの三社は、この問題にどう応答するかが問われている。

日本にとってこの問題は、対岸の火事ではない。ChatGPTの週間ユーザーは世界で9億人に達し、日本でも急速に普及している。日本語の学習データに占める国家系コンテンツの割合は中国語ほど高くないと考えられるが、情報の非対称性という問題は普遍的だ。NHKや大手新聞社のデジタルコンテンツがどのような形でAIの学習に使われているか、日本社会も無関心でいられない問いに直面しつつある。

「意図せざるプロパガンダ」はどこから来るのか

チャットボットが「特別な説得力」を持つ理由

ただし、話は単純ではない

AI企業は何をすべきか

意見

関連記事