Microsoftの AI Red Team がエージェント AI の障害モード分類法を更新 — 12 ヶ月の本番環境レッドチーミングから 7 つの新しいモード

何が起きたか

Microsoft の AI Red Team は 6 月 4 日にエージェント AI システムの障害モードに関する更新された分類法を公開し、Microsoft Security Copilot および MCP エコシステムを含む本番環境デプロイに対する 1 年間のレッドチームエンゲージメントから導き出された 7 つの新しいカテゴリを追加しました。新しいカテゴリは、エージェントサプライチェーン侵害、目標ハイジャック、エージェント間信頼昇格、コンピュータ使用エージェントビジュアル攻撃、セッションコンテキスト汚染、MCP/プラグイン悪用、および機能/アーキテクチャ開示です。このポストは、オープンソースのエージェントフレームワーク (OpenClaw) が 336 個の確認済みの悪意あるプラグインを含みながら、迅速に数千のデプロイを蓄積した方法を説明しており、エージェントエコシステムがセキュリティレビューよりも速くスケーリングできる方法を示しています。

なぜ重要か

2025 年の初版 (将来を見据えたものでした) とは異なり、このアップデートは本番環境で確認された悪用チェーンに基づいています。ゼロクリックデータ流出とラテラルムーブメントは外部発信元の入力のみから記録されており、初回エージェントデプロイ以外のユーザーインタラクションはありません。ループ内の人間をバイパスすることは、最も悪用される障害モードとして識別され、承認プロンプトが意味のあるセキュリティを提供するという仮定に直接異議を唱えています。Microsoft はエージェント SBOM 生成、タスクごとのアイデンティティ検証、およびツール呼び出しごとの最小権限スコープを推奨しています。

必要な対応

7 つの新しい障害モードをデプロイ済みエージェントアーキテクチャにマップします。特に、人間による承認プロンプトをバイパスできるかどうか、および MCP/プラグインレジストリが悪意あるエントリについてレビューされているかどうかを監査してください。

Microsoftの AI Red Team がエージェント AI の障害モード分類法を更新 — 12 ヶ月の本番環境レッド チーミングから 7 つの新しいモード

Microsoftの AI Red Team がエージェント AI の障害モード分類法を更新 — 12 ヶ月の本番環境レッドチーミングから 7 つの新しいモード