Indirect Prompt Injection はアーキテクチャの問題であり、デプロイメント固有ではない — Brave がクラウドおよびローカル AI ツールへの攻撃を実証

技術的な説明

Brave Security Research は 2026 年 6 月 8 日に、悪意のある命令が第三者コンテンツに埋め込まれて AI エージェントのタスクをハイジャックする indirect prompt injection が、クラウドホスト型 AI (Mozilla Tabstack) とデバイス上完全実行型 AI (Cotypist for macOS) の両方に対して同等に機能することを示す実証的なデモンストレーションを公開しました。Tabstack の場合、ウェブページ上の目に見えないテキストによってエージェントは要約タスクを放棄し、攻撃者が管理するフォームに移動し、ユーザーの会話履歴をそれに入力して送信しました。Cotypist の場合、ローカルドキュメント内の命令がオートコンプリート提案に影響を与え、認証情報を表示しました。Mozilla は責任ある開示後に Tabstack にパッチを適用しました。Cotypist はユーザーによる提案の受け入れが必要ですが、依然として命令操作の影響を受けています。根本的な原因はアーキテクチャにあります。両システムとも、信頼できる開発者プロンプトと信頼できない外部データを単一のフラットなコンテキストウィンドウで組み合わせており、信頼できる境界の強制がありません。

攻撃経路

攻撃者は、AI ツールが取り込む可能性のあるあらゆるコンテンツに悪意のある命令を埋め込みます。ウェブページ (白背景に白いテキストまたはゼロ幅文字で隠された)、ドキュメント、メールコンテンツ、ツールの結果、または取得されたコンテキスト。AI システムへの直接アクセスは不要です。ペイロードはユーザーの通常のワークフロー経由で到達します。

影響を受けるシステム

システムおよびユーザー命令と同じコンテキストウィンドウで、信頼できない外部コンテンツ (ウェブページ、ドキュメント、メール、検索結果) を取り込む AI エージェントまたは AI 支援ツール。Mozilla Tabstack (クラウド) および Cotypist (デバイス上 macOS) に対して実証されています。以前は同じチームによって Opera Neon および Perplexity Comet に対して実証されています。

緩和策

アーキテクチャの緩和策: 命令チャネルとデータチャネルを分離する厳密なコンテキストウィンドウセグメンテーション、来源タグ付け、外部への書き込み (フォーム送信、API 呼び出し、ファイル書き込み) の前に明示的なユーザー確認を要求、および取得されたすべてのコンテンツを命令ではなくデータとして扱うこと。ランタイム: 外部ソースから取り込まれたコンテンツに prompt injection フィルターを適用する、エージェントの決定トレースをログに記録して検査し、予期しない命令ソースを検出する。