무슨 일이 있었나
중국과학기술대학교, 싱가포르국립대학교, 싱가포르경영대학교, 그리고 상하이 AI 연구소의 연구원들이 2026년 5월 27일 LLM 에이전트를 위한 '슬리퍼 어택' 위협 모델을 공식화하는 사전인쇄본을 발표했다(arXiv:2605.28201). 7개 LLM(오픈소스 및 클로즈드소스)에서 1,896개 인스턴스에 대해 테스트한 결과, 도구 반환 데이터, 웹 페이지 또는 MCP 컨텍스트에 주입된 적대적 콘텐츠가 에이전트 상태(세션 컨텍스트, 메모리, 재사용 가능한 기술)에서 지속되고 양성 사용자 쿼리를 통해 활성화될 수 있음을 보여준다 — 직접 프롬프트 인젝션에 저항력이 있는 것으로 보였던 에이전트에서도 단일 상호작용 기준선보다 높은 공격 성공률을 달성한다.
왜 중요한가
에이전트 AI를 위한 기존 방어 태세 — 대부분의 프롬프트 인젝션 방어를 포함하여 — 적대적 콘텐츠가 동일한 사용자 요청 내에서 해로운 행동을 유발해야 한다고 가정한다. 슬리퍼 어택은 이 가정을 무효화한다: 에이전트의 메모리에 심어진 악의적 명령어는 완전히 관련 없는 양성 요청에 의해 트리거되기 전까지 며칠 또는 몇 주 동안 휴면 상태로 남아있을 수 있으며, 이는 탐지 및 속성 파악을 극적으로 어렵게 만든다. 싱가포르에서 공동 저자된 이 연구는 메모리 지원 또는 장기 실행 에이전트 AI 시스템을 배포하는 엔터프라이즈에 직접적인 관련성이 있다.
필요한 조치
배포된 에이전트가 영구 메모리 또는 재사용 가능한 기술 저장소를 가지고 있는지 검토하고 더 엄격한 제어를 적용한다: 외부 콘텐츠로부터의 메모리 쓰기를 제한하고, 로드된 기술에 대한 무결성 검사를 추가하며, 단일 요청 내가 아닌 세션 전체에서 상호 연관된 비정상적인 도구 호출을 찾는 행동 모니터링을 구현한다.