Microsoft AI Red Team은 에이전트 AI 시스템의 실패 모드 분류를 업데이트 — 12개월 프로덕션 레드 팀 활동에서 나온 7가지 새로운 모드

무슨 일이 있었나

Microsoft의 AI Red Team은 6월 4일 에이전트 AI 시스템의 실패 모드에 대한 업데이트된 분류법을 발표했으며, Microsoft Security Copilot 및 MCP 생태계를 포함한 프로덕션 배포에 대한 1년간의 레드 팀 활동에서 파생된 7가지 새로운 카테고리를 추가했습니다. 새로운 카테고리는 다음과 같습니다: agentic supply-chain compromise, goal hijacking, inter-agent trust escalation, computer-use agent visual attacks, session context contamination, MCP/plugin abuse, capability/architecture disclosure. 이 게시물은 오픈 소스 에이전트 프레임워크(OpenClaw)가 336개의 확인된 악성 플러그인을 포함하면서 빠르게 수천 개의 배포를 축적한 방식을 설명하며, 이는 에이전트 생태계가 보안 검토보다 빠르게 확장될 수 있음을 보여줍니다.

왜 중요한가

2025년 첫 번째 판(미래 지향적이었던)과 달리, 이번 업데이트는 프로덕션의 확인된 익스플로잇 체인을 기반으로 합니다: 제로 클릭 데이터 유출 및 수평 이동이 외부 출처 입력만으로 문서화되었으며, 초기 에이전트 배포를 넘어서는 사용자 상호작용이 없습니다. 사용자 개입 루프 우회가 가장 많이 악용된 실패 모드로 식별되었으며, 승인 프롬프트가 의미 있는 보안을 제공한다는 가정에 직접적으로 도전합니다. Microsoft는 에이전트 SBOM 생성, 작업별 신원 확인, 및 도구 호출별 최소 권한 범위를 권장합니다.

필요한 조치

7가지 새로운 실패 모드를 배포된 에이전트 아키텍처에 매핑하십시오. 특히 사용자 승인 프롬프트가 우회될 수 있는지 여부와 MCP/플러그인 레지스트리가 악성 항목에 대해 검토되었는지 여부를 감사하십시오.