WARD Guard Model はプロンプトインジェクション攻撃に対してほぼ完璧なリコール率でウェブエージェントを防御

技術的な説明

研究者らは、HTMLコンテンツまたはビジュアルインターフェース内に埋め込まれたプロンプトインジェクション攻撃からウェブエージェントを保護するためのガードモデルであるWARD (Web Agent Robust Defense against Prompt Injection)を導入しました。WARDはWARD-Base（719個の高トラフィックURLから177Kサンプル）とWARD-PIG（ガード対象攻撃用の専用データセット）でトレーニングされています。このシステムは分布外ベンチマークでほぼ完璧なリコール率を達成し、低い誤検知率を維持し、追加レイテンシなしでエージェントと並行して効率的に実行されます。

攻撃経路

ウェブエージェントは、訪問するウェブページに埋め込まれた敵対的なプロンプトインジェクション——HTMLコメント、非表示CSS、またはユーザーレビュー、フォーラム投稿、広告、または埋め込みウィジェット内のLLM生成セマンティック散文を通じて——に遭遇します。既存のガードモデルは、未見ドメインへの一般化の制限、高い誤検知、デプロイメントレイテンシ、および進化またはガード自体を対象とした敵対的攻撃に対する脆弱性に悩まされています。

影響を受けるシステム

ウェブサイトを自律的にブラウジングしてHTMLコンテンツと相互作用するウェブエージェント。ブラウザベースのAIアシスタント、自律ショッピングエージェント、オープンウェブ環境をナビゲートする調査エージェントを含みます。この防御は、タスク実行中に信頼されていない第三者コンテンツにさらされているシステムに適用されます。

緩和策

WARDを並行ガードモデルとしてデプロイし、エージェント実行前にウェブページの状態（HTMLおよびスクリーンショット）を検査します。WARDの適応的敵対的トレーニングフレームワーク（A3T）は、メモリベースの攻撃者およびガード共進化を通じた反復的な強化を可能にします。システムの低レイテンシ設計により、エージェントのパフォーマンスを低下させることなくリアルタイム保護が可能になります。