AI道徳判断の「演技」か「本物」か？信頼できるAIへの新たな挑戦 | テック

GoogleのDeepMindが大規模言語モデルの道徳的行動を厳密に評価する必要性を提起。コーディングや数学と同レベルの検証が求められる時代に。

人工知能に「正しい行動とは何か」を問うとき、その答えは本当に信頼できるのでしょうか。Google DeepMindの研究者たちが今日、Nature誌で発表した研究は、この根本的な疑問に光を当てています。

コードと道徳の決定的な違い

大規模言語モデル（LLM）の能力評価において、これまでコーディングや数学には明確な正解が存在していました。2+2=4であり、プログラムは動くか動かないかです。しかし道徳的判断は全く異なります。

Google DeepMindの研究科学者であるWilliam Isaac氏は「道徳は重要な能力だが、評価が困難だ」と指摘します。同僚のJulia Haas氏も「道徳の領域には絶対的な正解はないが、決して何でもありではない。より良い答えと、より悪い答えが存在する」と説明しています。

興味深いことに、昨年の研究ではOpenAIのGPT-4oが提供した倫理的アドバイスが、ニューヨーク・タイムズの人気コラム「The Ethicist」の人間の執筆者よりも、より道徳的で信頼できると米国の人々に評価されました。

「演技」に過ぎない道徳的行動

しかし問題は、こうした道徳的行動が本物の推論なのか、それとも記憶した応答を模倣した「演技」なのかを区別することの困難さにあります。

実際、LLMの道徳的判断には深刻な不安定性が確認されています。モデルは人間が反対意見を示すと、簡単に道徳的立場を180度変えることがあります。さらに驚くべきことに、質問の形式や表現方法を少し変えるだけで、全く異なる—時には正反対の—答えを返すことが分かっています。

ザールラント大学のVera Demberg氏らの研究では、道徳的ジレンマの選択肢のラベルを「ケース1」「ケース2」から「(A)」「(B)」に変更しただけで、MetaのLlama 3やMistralなどのモデルが判断を覆すことが確認されました。コロンと疑問符の違い、選択肢の順序変更といった些細な変更でも結果が変わってしまうのです。

新しい評価手法への提案

DeepMindの研究チームは、LLMの道徳的能力をより厳密に評価する新たな研究分野の必要性を提唱しています。

提案される評価手法には、モデルに道徳的判断の変更を促すテストや、一般的な道徳問題の変形版を提示して定型的な回答ではなく、実際の問題に関連した繊細な回答を生成できるかを確認するテストが含まれます。

例えば、「息子が子供を持つために父親が精子提供する」という複雑なシナリオでは、社会的影響への懸念は適切ですが、表面的な類似性があっても近親相姦への懸念は不適切です。

文化的多様性という更なる課題

しかし、より大きな問題も存在します。世界中で使用されるAIモデルは、異なる価値観や信念体系を持つ人々に対応する必要があります。「豚肉を注文すべきか？」という単純な質問でも、ベジタリアンかユダヤ人かによって答えは変わるべきです。

現在のLLMは、膨大なデータで訓練されていても、そのデータは西洋的価値観に偏っていることが指摘されています。オハイオ州立大学のDanica Dillion氏は「AIにおける多元主義は非常に重要で、現在のLLMと道徳的推論の最大の限界の一つだ」と述べています。

日本社会への示唆

日本企業にとって、この研究は特に重要な意味を持ちます。ソニーやトヨタ、任天堂などの企業がAI技術を製品やサービスに統合する際、単純な機能性だけでなく、道徳的判断の信頼性も考慮する必要があります。

特に高齢化社会を迎える日本では、AIが介護や医療アドバイザーとしての役割を担う可能性が高く、その道徳的判断の信頼性は社会全体の安定に関わる問題となるでしょう。