arXiv: '설치, 지속, 트리거' — 슬리퍼 어택 연구는 교차 상호작용 에이전트 메모리 포이즈닝을 별개의 위협 클래스로 공식화

무슨 일이 있었나

중국과학기술대학교, 싱가포르국립대학교, 싱가포르경영대학교, 그리고 상하이 AI 연구소의 연구원들이 2026년 5월 27일 LLM 에이전트를 위한 '슬리퍼 어택' 위협 모델을 공식화하는 사전인쇄본을 발표했다(arXiv:2605.28201). 7개 LLM(오픈소스 및 클로즈드소스)에서 1,896개 인스턴스에 대해 테스트한 결과, 도구 반환 데이터, 웹 페이지 또는 MCP 컨텍스트에 주입된 적대적 콘텐츠가 에이전트 상태(세션 컨텍스트, 메모리, 재사용 가능한 기술)에서 지속되고 양성 사용자 쿼리를 통해 활성화될 수 있음을 보여준다 — 직접 프롬프트 인젝션에 저항력이 있는 것으로 보였던 에이전트에서도 단일 상호작용 기준선보다 높은 공격 성공률을 달성한다.

왜 중요한가

에이전트 AI를 위한 기존 방어 태세 — 대부분의 프롬프트 인젝션 방어를 포함하여 — 적대적 콘텐츠가 동일한 사용자 요청 내에서 해로운 행동을 유발해야 한다고 가정한다. 슬리퍼 어택은 이 가정을 무효화한다: 에이전트의 메모리에 심어진 악의적 명령어는 완전히 관련 없는 양성 요청에 의해 트리거되기 전까지 며칠 또는 몇 주 동안 휴면 상태로 남아있을 수 있으며, 이는 탐지 및 속성 파악을 극적으로 어렵게 만든다. 싱가포르에서 공동 저자된 이 연구는 메모리 지원 또는 장기 실행 에이전트 AI 시스템을 배포하는 엔터프라이즈에 직접적인 관련성이 있다.

필요한 조치

배포된 에이전트가 영구 메모리 또는 재사용 가능한 기술 저장소를 가지고 있는지 검토하고 더 엄격한 제어를 적용한다: 외부 콘텐츠로부터의 메모리 쓰기를 제한하고, 로드된 기술에 대한 무결성 검사를 추가하며, 단일 요청 내가 아닌 세션 전체에서 상호 연관된 비정상적인 도구 호출을 찾는 행동 모니터링을 구현한다.