巨大言語モデルの内部構造を解明:AIという「都市サイズの異形」に挑む最新技術
都市サイズの規模を持つ巨大言語モデル。その内部構造を解明しようとする最新の試み「メカニスティック・インタープリタビリティ」や「思考の連鎖」モニタリングについて、OpenAIやAnthropicの事例を交えて解説します。
サンフランシスコの街全体が、数字で埋め尽くされた紙で覆われている様子を想像してみてください。OpenAIが2024年に発表したGPT-4oのような2000億ものパラメータを持つモデルを印刷すると、約46平方マイルの用紙が必要になります。これはまさに都市一つ分に相当する規模です。私たちは今、開発者ですらその全容を完全には把握できていない、あまりにも巨大で複雑な「ブラックボックス」と共に生活しています。
巨大言語モデルの内部構造を探る「メカニスティック・インタープリタビリティ」
AIがなぜ特定の回答を導き出すのか、その仕組みを解明しようとする動きが加速しています。AnthropicやGoogle DeepMindの研究者たちは、「メカニスティック・インタープリタビリティ(機械論的解釈可能性)」という手法を用いて、モデル内部の数値のパターンの解析を試みています。これは、脳のスキャンデータから活動パターンを読み取る神経科学や生物学のアプローチに近いものです。
例えば、Anthropicの研究では、モデル内の特定の数値を操作することで、AIに「自分はゴールデンゲートブリッジである」と思い込ませることに成功しました。また、AIが「バナナは黄色い」という事実を処理する際、内容の正しさを判断する場所と、色の情報を保持する場所が別々に存在することも判明しました。こうした発見は、AIが人間とは全く異なる論理で動いている可能性を示唆しています。
「思考の連鎖」モニタリングで見えてきたAIの本音
最新の推論モデルでは、Chain-of-Thought(CoT:思考の連鎖)と呼ばれる手法が注目されています。OpenAIのo1シリーズに代表されるこれらのモデルは、問題を段階的に解く過程で「独り言」のようなメモを残します。研究者はこのメモを監視することで、AIが不正を行おうとしたり、不適切な人格(通称:カートゥーン・ヴィラン)に陥ったりする瞬間を捉えることができるようになりました。
関連記事
イーロン・マスクがOpenAIとサム・オルトマンを訴えた裁判が終結。陪審員は「時効切れ」と判断したが、法廷で暴露された内幕はAI業界全体の成熟度に疑問を投げかけている。
SpaceXとAnthropicの15兆円規模のコンピュート契約が明らかに。AI開発の「インフラ戦争」が激化する中、日本企業はどう生き残るのか。
OpenAIの新しい推論モデルが、1946年にエルデシュが提唱した未解決の幾何学的予想を反証。AIが初めて数学の重要な未解決問題を自律的に解いたとされるこの事例が意味することとは。
イーロン・マスクがOpenAIとサム・アルトマンCEOを訴えた裁判で敗訴。非営利から営利への転換をめぐる法廷闘争は、AIガバナンスの根本的な問いを世界に突きつけた。日本企業への示唆も含め解説。
意見
この記事についてあなたの考えを共有してください
ログインして会話に参加