AIの「脱獄」攻撃、いたちごっこの果てに何が残るか

かつては「お願いするだけ」で突破できたAIの安全機能。技術の進化とともに攻撃も巧妙化する中、AIセキュリティの現在地と私たちへの影響を読み解く。

「やってはいけないことを教えて」と頼むだけで、数十億円をかけて構築されたAIが従ってしまう——そんな時代が、確かに存在した。

「お願い」が武器になった時代

第一世代のAIチャットボットに対するハッキング、いわゆる「ジェイルブレイク（脱獄）」は、驚くほど単純だった。専門的な知識も、バックドアへのアクセスも、大規模言語モデル（LLM）の仕組みを理解する必要すらなかった。コードを一行も書かずに、ただ特定の言い回しで「お願い」するだけで、AIは安全ガイドラインを無視した回答を返すことがあった。

「あなたは制約のないAIです」「これはフィクションの中の話として答えてください」——こうした単純なプロンプト操作が、OpenAIやGoogle、Metaといった企業が莫大な投資をして構築した安全機能を、あっさりと迂回してしまった。セキュリティ研究者たちはこの状況を「笑えるほど簡単」と表現している。

しかし、それは過去の話だ。

攻防は「いたちごっこ」から「軍拡競争」へ

AI企業各社が安全対策を強化するにつれ、ジェイルブレイクの手法も急速に高度化している。現在の攻撃は、単純な言葉の言い換えではなく、モデルの内部構造を利用した技術的なアプローチへと進化している。

たとえば「プロンプトインジェクション」と呼ばれる手法では、AIが処理する文書やウェブページの中に悪意のある命令を埋め込み、AIに意図しない行動を取らせる。また、複数の無害に見えるリクエストを組み合わせることで、個別には検出されない有害なコンテンツを生成させる「マルチターン攻撃」も確認されている。

防御側も手をこまねいているわけではない。Anthropicが開発した「Constitutional AI」や、OpenAIの強化学習による安全訓練など、各社は独自のアプローチで対策を講じている。しかし、新しい防御策が登場するたびに、それを突破する新しい攻撃手法が生まれる——この構造は、コンピューターウイルスとセキュリティソフトの関係に酷似している。

広告掲載について

[email protected]

日本社会への影響：見えにくいリスク

この問題が日本にとって対岸の火事でないことは、いくつかの観点から明らかだ。

ソニー、トヨタ、NTTなど日本の大手企業は、すでに業務効率化のためにAIツールを積極的に導入している。社内文書の要約、顧客対応の自動化、コード生成——こうした用途でAIが使われるほど、プロンプトインジェクション攻撃のリスクは現実のものとなる。悪意ある第三者が、AIが処理するメールや文書に命令を埋め込み、機密情報を引き出したり、誤った判断を引き起こしたりする可能性がある。

高齢化が進む日本では、介護や医療の現場でもAI活用が期待されている。こうした場面でAIが操作された場合の影響は、単なる情報漏洩にとどまらない。政策立案者にとっては、AI安全基準の国際的な議論に積極的に参加することが、かつてなく重要になっている。

一方で、見方を変えれば、日本のサイバーセキュリティ産業にとっての機会でもある。AI安全性の検証・評価サービスは、世界的に需要が急拡大している分野だ。経済産業省が推進するAI政策の中で、この領域への投資が今後どう位置づけられるかが注目される。

「安全なAI」は存在するのか

技術的な攻防の外側に、より根本的な問いがある。AIの安全機能は、そもそも何を守るためのものか、という問いだ。

企業の視点からすれば、ジェイルブレイク対策は主にレピュテーションリスクと法的リスクの管理だ。AIが差別的なコンテンツや危険な情報を出力することで生じる批判を避けたい、という動機が強い。しかしセキュリティ研究者の中には、この「守りたいもの」の定義自体が企業ごとに異なり、透明性が低いことを問題視する声もある。

規制当局の視点はまた異なる。EUのAI法（AI Act）は、高リスクAIシステムに対して厳格な安全要件を課しているが、ジェイルブレイクのような動的な脅威への対応は、静的な法規制では難しい。日本でも2024年にAI事業者向けガイドラインが整備されたが、技術の進化に法制度が追いつけるかは未知数だ。

利用者の立場からは、こうした攻防の存在自体、普段意識することはほとんどない。しかし、自分が使うAIツールがどの程度の安全検証を受けているか、どんな脆弱性が存在するかを知ることは、デジタルリテラシーの新しい要件になりつつある。