OpenAIが認める「終わらない戦い」：プロンプトインジェクション攻撃とAIエージェントの未来

OpenAIが、AIエージェントへの「プロンプトインジェクション」攻撃は完全には解決できない問題だと認めました。同社がこの終わらない戦いにどう立ち向かうのか、AIハッカーを用いた独自の防衛策と専門家の見解を解説します。

OpenAIは、同社のAIブラウザ「ChatGPT Atlas」におけるサイバー攻撃対策を強化する一方で、「プロンプトインジェクション」と呼ばれる攻撃手法が、すぐには解決できない根深いリスクであることを認めました。ウェブページやメールに隠された悪意ある指示をAIエージェントに実行させるこの攻撃は、AIがオープンなウェブ上で安全に動作できるかという根本的な問いを投げかけています。

OpenAIは公式ブログ投稿で、「ウェブにおける詐欺やソーシャルエンジニアリングと同様に、プロンプトインジェクションが完全に『解決』される可能性は低い」と述べ、ChatGPT Atlasの「エージェントモード」がセキュリティの脅威対象を拡大させることを認めました。これは単なるOpenAIだけの問題ではなく、英国の国家サイバーセキュリティセンター（NCSC）も今月初め、この種の攻撃は「決して完全には緩和できないかもしれない」と警告しています。

AIハッカーを自ら育てる：OpenAIのユニークな対抗策

この終わりの見えない課題に対し、OpenAIはライバルとは一線を画すアプローチを取っています。それが「LLMベースの自動化された攻撃者」の開発です。これは、OpenAIが強化学習を用いて訓練したボットで、いわばハッカー役を演じ、AIエージェントに悪意ある指示を忍び込ませる方法を探し出します。

広告掲載について

[email protected]

このAIハッカーの強みは、標的となるAIの内部的な思考プロセスをシミュレーション内で覗き見できる点にあります。これにより、外部の攻撃者には不可能な速度でシステムの脆弱性を発見し、修正サイクルを高速化できるとOpenAIは説明します。同社が公開したデモでは、このAIハッカーがユーザーの受信トレイに悪意あるメールを送り込み、エージェントに不在通知ではなく辞表を送らせることに成功。しかし、セキュリティ更新後は、エージェントがこの攻撃を検知し、ユーザーに警告できるようになったとしています。

専門家が指摘する「リスクと価値」の不均衡

一方で、この技術には慎重な見方もあります。サイバーセキュリティ企業Wizの主任セキュリティ研究者であるラミ・マッカーシー氏はTechCrunchに対し、「AIシステムのリスクは『自律性 × アクセス権』で考えられる」と指摘。「エージェント型ブラウザは、中程度の自律性と非常に高いアクセス権を併せ持つため、難しい領域に位置している」と語りました。

同氏は、「ほとんどの日常的な用途において、エージェント型ブラウザは、現在のリスクプロファイルを正当化するほどの価値をまだ提供していない」と述べ、メールや支払い情報といった機密データへのアクセス権がもたらすリスクの高さを強調しました。このためOpenAIも、ユーザー自身がリスクを減らすために、メッセージ送信や支払い実行前に確認を求める設定にしたり、「必要なアクションをすべて任せる」といった曖昧な指示ではなく、具体的な指示を与えることを推奨しています。

AIハッカーを自ら育てる：OpenAIのユニークな対抗策

専門家が指摘する「リスクと価値」の不均衡

意見

記者

関連記事