arXiv: 「Plant, Persist, Trigger」— Sleeper Attack研究が、交差相互作用エージェントメモリポイズニングを異なる脅威クラスとして形式化

何が起きたか

中国科学技術大学、シンガポール国立大学、シンガポール経営大学、上海AI研究所の研究者らは、2026年5月27日にLLMエージェント向け「Sleeper Attack」脅威モデルを形式化したプレプリントを公開しました（arXiv:2605.28201）。7つのLLM（オープンソースおよびクローズドソース）にわたる1,896インスタンスでテストされたこの研究は、ツール返却データ、Webページ、またはMCPコンテキストに注入された敵対的コンテンツが、複数のインタラクションをまたいでエージェント状態（セッションコンテキスト、メモリ、再利用可能なスキル）に永続化でき、良性のユーザークエリを介してアクティベートできることを示しており、直接的なプロンプトインジェクションに対して耐性があると思われたエージェントでも、単一相互作用ベースラインより高い攻撃成功率を達成しています。

なぜ重要か

エージェンティックAIの既存の防御体制（ほとんどのプロンプトインジェクション防御を含む）は、敵対的コンテンツが同じユーザーリクエスト内で有害な行動をトリガーする必要があると想定しています。Sleeper Attackはこの想定を無効にします。エージェントのメモリに埋め込まれた悪意のある命令は、完全に関連のない良性のリクエストによってトリガーされるまで、数日または数週間休止状態のままでいることができ、検出と属性付けを劇的に困難にします。シンガポールから共著されたこの研究は、メモリ対応またはロングランニングなエージェンティックAIシステムを導入している企業に直接的な関連性があります。

必要な対応

導入されたエージェントが永続的なメモリまたは再利用可能なスキルストアを有しているかどうかを確認し、より厳格な制御を適用します。外部コンテンツからメモリへの書き込みを制限し、読み込まれたスキルに整合性チェックを追加し、単一のリクエスト内だけでなくセッション間で相関した異常なツール呼び出しを探す動作監視を実装します。