MemPoison — 通常の対話を通じてLLMエージェントの長期メモリに永続的なバックドアを注入するステルストロイ攻撃。選択的メモリ防御を回避

技術的な説明

清華大学、PLA情報工学大学および関連機関の研究者が、長期メモリを持つLLMエージェントに対する新しいメモリ毒物攻撃であるMemPoison(arXiv:2605.29960、2026-05-28)を発表した。直接的なデータベース書き込みアクセスを前提とする従来の攻撃とは異なり、MemPoisonは通常のブラックボックス対話交互作用のみを通じて動作する。攻撃は3つのコンポーネントを使用する:(1)トリガーと悪意のあるペイロードを一貫した文に組み合わせるセマンティック関係ブリッジ。エージェントの選択的メモリ抽出を通じて両方が生き残ることを保証する。(2)トリガーを名前付きエンティティとして偽装するエンティティマスカレード。エージェントのメモリ書き直し段階に抵抗する。(3)トリガー注入テキストをステルス性のため良性の埋め込みの近くにクラスタリングしながら、信頼できる検索のための分離を維持する結合埋め込み最適化。複数のエージェントドメインとメモリアーキテクチャ全体で評価すると、MemPoisonは0.95までの攻撃成功率を達成し、従来の方法を大幅に上回る一方、既存の防御(検出ベースと隔離ベースのアプローチを含む)はそれを確実に軽減できない。

攻撃経路

攻撃者は通常のユーザーインターフェース経由でメモリ拡張LLMエージェントと対話する。トリガーペイロード構造を含む作成された対話メッセージはエージェントのメモリ取り込みパイプラインを通過し、選択的に抽出され(フィルタリング段階を生き残る)、長期メモリストレージに永続化され、その後マッチングする将来のクエリで検索される — トリガー条件が満たされたときに攻撃者が指定した動作を実行するようエージェントに強制する。特別なアクセス権は不要。攻撃はセッション全体で繰り返し可能。

影響を受けるシステム

長期メモリメカニズムを備えたLLMエージェント(MemGPTスタイルシステム、永続的なエピソディックメモリを持つRAG拡張エージェント、セッション履歴を持つカスタマーサービスエージェント、プロジェクトメモリを持つコーディングエージェント)。OpenClaw、Codex、Claude Code、およびユーザー相互作用履歴を保存するエージェントフレームワークの本番環境デプロイは、メモリフィルタリングがバイパスされると構造的に露出する。

緩和策

直接的なパッチはない。研究者は複数の防御戦略を評価し、すべてに基本的な制限があることを発見した。推奨される暫定的なコントロール:(1)エージェント長期メモリストアを信頼された状態ではなく敵対的入力として扱う — 抽出されたメモリエントリに異常検知を適用し、特に異常に具体的な名前付きエンティティ関連付けを探す。(2)信頼されていない、または公開されているエージェントのメモリ永続性を制限する。(3)タスク修正命令を含むメモリエントリが永続ストレージにコミットされる前に人間によるレビューを要求する。(4)本番環境デプロイ前にMemPoisonクラスの敵対的入力の下でメモリ拡張エージェントを評価する。