技術的な説明
南洋理工大学、ST Engineering、IBM Research、イリノイ大学アーバナ・シャンペーン校の研究者が、2026年6月12日に StakeBench (arXiv 2606.13385) を発表しました — 初のステークホルダー中心のプロンプト インジェクション ベンチマークです。NanoBrowser と BrowserUse エージェントを GPT-5 と Gemini 2.5-Flash でテストし、3,168 回の攻撃シミュレーションを実施した結果、攻撃目標は一貫して抵抗されませんでした。直接インジェクションは 79% 以上の構成で成功し、間接攻撃は 41.67~68.16% の成功率を示しました。この研究は「ステルス寄生」という障害モードを記録しています。このモードでは、エージェントがユーザーのタスクを完了する一方で、攻撃者の目的を同時に実行し、従来の検出方法では検知されません。
攻撃経路
AI Web エージェントがタスク実行中に遭遇する Web ページコンテンツ(商品レビュー、コメント、ページテキスト)に埋め込まれた対抗的な指示。ステルス寄生攻撃は特に危険です。ユーザーが正しい出力を見ている一方で、攻撃者の目的(例:バイアスのかかった商品推奨、認証情報の収集)が同時に達成されるからです。
影響を受けるシステム
テストされたすべてのプロダクション Web エージェント — GPT-5 と Gemini 2.5-Flash で駆動し、NanoBrowser と BrowserUse フレームワークを使用するエージェント。本論文の知見は、ユーザーに代わってタスクを完了するために Web をブラウジングするあらゆる LLM エージェントに広く適用されます。
緩和策
完全な軽減策は存在しません。推奨される対策:複数当事者への影響を追跡する(単なるタスク成功ではなく)ステークホルダー認識ハーム監視を実装する;プロンプト インジェクションを文脈的評価が必要な危害の分布として扱う;ステルス寄生を示唆する非対称行動パターンについてエージェント出力監視を適用する。