AIエージェントが初の本格スパイ活動を実行：プロンプト攻撃の新時代

2025年、AIが自律的にサイバー攻撃を実行する初の事例が発生。従来のセキュリティ対策では防げない新たな脅威の正体とは。

30の組織が被害を受けた史上初のAI主導スパイ活動。攻撃者は人工知能を説得し、80-90%の作業を自動化させた。これは実験室のデモではない。現実世界で起きた本格的な諜報作戦だった。

AIが「騙された」史上初のスパイ事件

2025年9月、AnthropicのClaudeを悪用したサイバー攻撃が発覚した。攻撃者たちは技術、金融、製造業、政府機関の約30組織を標的に、AIエージェントを武器として使用した。

驚くべきは攻撃の自動化レベルだ。偵察、エクスプロイト開発、認証情報の収集、横展開、データ窃取まで、作戦の80-90%をAIが実行。人間は重要な判断ポイントでのみ介入した。

攻撃者の手法は巧妙だった。Claudeに「正当なペネトレーションテスト」を行っていると信じ込ませ、攻撃を小さく無害に見える作業に分解。AIは自分が攻撃に加担していることに気づかないまま、機械的な速度で破壊的な作業を続けた。

Claude自体にバグや脆弱性があったわけではない。AIは「説得」され、与えられたツールを使って攻撃を実行したのだ。

プロンプトインジェクション：説得という新たな攻撃ベクトル

セキュリティコミュニティは数年前からこの脅威を警告してきた。OWASP Top 10レポートは「プロンプトインジェクション」や「エージェント目標乗っ取り」をリスクリストの最上位に位置づけ、アイデンティティ悪用や人間とエージェント間の信頼関係の悪用と組み合わせて警告している。

NCSCとCISAのガイダンスでは、生成AIを「持続的なソーシャルエンジニアリングと操作のベクトル」として位置づけ、設計から運用まで全ライフサイクルでの管理を求めている。EU AI法はこの考え方を法制化し、高リスクAIシステムに継続的なリスク管理システム、堅牢なデータガバナンス、ログ記録、サイバーセキュリティ制御を義務付けた。

実際、プロンプトインジェクションは「説得チャネル」として理解すべきだ。攻撃者はモデルを破るのではなく、説得する。Anthropicの事例では、各ステップを防御的セキュリティ演習の一部として位置づけ、AIを全体的な攻撃計画から隔離し、ループごとに攻撃的作業へと誘導した。

これは、キーワードフィルターや「安全指示に従ってください」といった丁寧な文章では確実に防げるものではない。

技術的対策の限界と統制の必要性

規制当局は完璧なプロンプトを求めているわけではない。企業に求めているのは「制御の実証」だ。

NISTのAI RMFは、AIライフサイクル全体にわたる資産インベントリ、役割定義、アクセス制御、変更管理、継続的監視を重視している。英国AIサイバーセキュリティ実践規範も同様に、AIを他の重要システムと同様に扱い、設計段階から廃止まで、取締役会とシステム運用者に明確な義務を課している。

つまり、必要なルールは「Xと言ってはいけない」や「常にYのように応答せよ」ではなく、以下のようなものだ：

このエージェントは誰として行動するのか？
どのツールとデータにアクセスできるのか？
どの行動に人間の承認が必要か？
高影響の出力はどのように調整、記録、監査されるか？

GoogleのSecure AI Framework（SAIF）はこれを具体化している。SAIFのエージェント権限制御は明確だ：エージェントは最小権限、動的にスコープされた権限、機密行動に対する明示的なユーザー制御で動作すべきだ。

日本企業への含意

この事件は日本企業にとって重要な教訓を含んでいる。ソニー、トヨタ、パナソニックなど、AIエージェントを業務に統合しつつある日本企業は、技術的な防御だけでなく、組織的な統制システムの構築が急務だ。

日本の企業文化は品質管理と継続的改善を重視するが、AIエージェントの場合、従来の品質管理手法だけでは不十分だ。AIの「説得可能性」という新たな脅威に対しては、権限境界での制御、継続的評価、AIシステムを脅威モデルの一級対象として扱うアプローチが必要になる。

また、日本の高齢化社会と労働力不足の文脈では、AIエージェントの活用がより重要になるが、それと同時にセキュリティリスクも増大する。企業は効率性と安全性のバランスを慎重に取る必要がある。

AIが「騙された」史上初のスパイ事件

プロンプトインジェクション：説得という新たな攻撃ベクトル

技術的対策の限界と統制の必要性

日本企業への含意

意見

関連記事