技術的な説明
シンガポールのCSA、GovTech、IMDA、およびGoogleの共同AI Agentsサンドボックス — 2026年5月20日に公開された実在の公共部門ワークフローにおけるコンピュータ使用エージェントの4ヶ月間の実証研究 — は、間接プロンプトインジェクションが最も顕著なサイバーセキュリティリスクであることを特定し、リモートコード実行(RCE)をトリガーする機能を明示的に指摘しました。この知見は、政府デジタルサービスに対する自動QA、AI安全性テスト、および社会支援ワークフローにおけるコンピュータ使用エージェントのテストから生じました。サンドボックスは、Webコンテンツ、ドキュメント、または外部システム出力と相互作用するエージェントが、直接的なユーザー指示ではなく、エージェントが処理するコンテンツに埋め込まれた悪意のあるペイロードを通じて、意図しないアクションを実行するよう操作されることができることを文書化しました — 任意のコード実行を含む。
攻撃経路
環境コンテンツを経由した間接プロンプトインジェクション:悪意のある行為者がWebページ、ドキュメント、APIレスポンス、またはエージェントが取得して処理する外部コンテンツにインジェクションペイロードを埋め込みます。取得したコンテンツを信頼できるコンテキストとして扱うエージェントは、埋め込まれた指示に従います。シェルコマンド、コード実行、またはファイルシステム操作へのアクセスを持つコンピュータ使用エージェントにおいて、このパスウェイは直接的なユーザー相互作用なしに完全なRCEを達成できます。
影響を受けるシステム
外部コンテンツを処理するすべてのエージェントAIデプロイメント(Webブラウジングエージェント、ドキュメント処理エージェント、メールエージェント、RAGベースのエージェント、コンピュータ使用エージェント)。特に高リスク:シェル実行、コードインタプリタ、ファイル書き込みアクセス、または環境資格情報を含む外部APIコールを含むツール呼び出し機能を持つエージェント。
緩和策
アーキテクチャの軽減策:(1) 指示コンテンツ(システムプロンプトおよび信頼できるユーザー入力から)と取得/環境コンテンツを厳密に分離する — すべての外部コンテンツを指示ではなく信頼できないデータとして扱う。(2) 必要最小限の権限でツール呼び出しのホワイトリストを実装する;外部コンテンツ取得ツールに環境資格情報アクセスを付与しない。(3) エージェント推論によってツール呼び出し実行がトリガーされる前に出力検証レイヤーを展開する。(4) すべてのツール呼び出しを相関IDでログし、取得したコンテンツ内の異常な指示パターンにフラグを立てる。(5) 本番環境リリース前に間接プロンプトインジェクションテストスイートを使用してすべてのエージェントデプロイメントをテストする — これをオプションのQAステップではなく必須のセキュリティゲートとして扱う。