Google DeepMind가 'AI Agent Traps' 분류법 발표: 자율 에이전트에 대한 6가지 공격 범주

기술 설명

Google DeepMind 연구원들은 자율 AI 에이전트에 대한 웹 기반 공격을 이해하기 위한 최초의 체계적 프레임워크를 발표했습니다. 논문은 6가지 'AI Agent Traps' 범주를 식별합니다: 콘텐츠 주입, 의미론적 조작, 인지 상태 손상, 데이터 유출, 체계적 공격, 그리고 인간-루프-중심 조작. 데이터 유출 공격 성공률은 테스트된 5개 에이전트 전체에서 80%를 초과했습니다.

공격 경로

공격자들은 HTML 주석, 보이지 않는 CSS 위치 지정 텍스트 또는 스테ganographic 이미지 데이터에 악의적인 지시사항을 삽입합니다. 이러한 지시사항은 인간 중재자에게는 보이지 않지만 AI 에이전트에 의해 처리됩니다. RAG 지식 중독은 0.1% 미만의 데이터 중독으로 백도어 성공률 80%를 초과합니다.

영향받는 시스템

웹을 탐색하고, 외부 문서를 처리하거나, retrieval-augmented generation 시스템과 상호작용하는 모든 자율 AI 에이전트. GPT, Claude, Gemini 및 기타 주요 LLM 플랫폼에 구축된 에이전트를 포함합니다.

완화 방안

에이전트가 소비하는 콘텐츠에 대한 입력 살균 구현, 프롬프트 주입에 대한 런타임 방어 배포, 콘텐츠 거버넌스 프레임워크 수립, 그리고 고위험 에이전트 작업에 대한 인간 감독 유지. 논문은 기본 모델을 강화하기 위해 훈련 데이터 증강을 권장합니다.