Google DeepMindが「AI Agent Traps」タクソノミーを公開：自律型エージェントに対する6つの攻撃カテゴリ

技術的な説明

Google DeepMindの研究者らが、自律型AIエージェントに対するウェブベースの攻撃を理解するための初の体系的なフレームワークを公開しました。このペーパーは「AI Agent Traps」の6つのカテゴリを特定しています：コンテンツ注入、セマンティック操作、認知状態破損、データ流出、システム攻撃、およびヒューマン・イン・ザ・ループ操作。データ流出攻撃の成功率は、テストされた5つのエージェント全体で80%を超えました。

攻撃経路

攻撃者はHTMLコメント、目に見えないCSS配置のテキスト、またはステガノグラフィ画像データに悪意のある指示を埋め込みます。これらの指示は人間のモデレーターには見えませんが、AIエージェントによって処理されます。RAGナレッジポイズニングは、0.1%未満のデータポイズニングで80%を超えるバックドア成功率を達成します。

影響を受けるシステム

ウェブを閲覧する、外部ドキュメントを処理する、または検索増強生成システムと相互作用するすべての自律型AIエージェント。GPT、Claude、Gemini、およびその他の主要なLLMプラットフォーム上に構築されたエージェントを含みます。

緩和策

エージェント消費コンテンツの入力サニタイゼーション、プロンプト注入に対するランタイム防御の展開、コンテンツガバナンスフレームワークの確立、および高リスク度のエージェントアクションに対する人間による監視の維持を実装してください。このペーパーは、基礎となるモデルを強化するためのトレーニングデータ拡張を推奨しています。