기술 설명
정보공학연구소(중국과학원), 중국과학원대학교, 베이징 Chaitin Technology의 연구자들이 단일 세션 프롬프트 인젝션과 구별되는 새로운 시스템 수준 공격 클래스로서 '크로스 세션 저장된 프롬프트 인젝션'(SPI)을 정식화했습니다. 웹 시스템의 저장된 XSS에 대한 명시적 유추를 그리면서, SPI는 현대의 에이전트 시스템이 세션을 통해 지속되는 영구적인 상태(메모리, 파일시스템, RAG 저장소, 도구/MCP 메타데이터, AGENTS.md 시스템 프롬프트)를 유지한다는 사실을 악용합니다. 공격자가 일반적인 상호작용, 문서 업로드, 또는 웹 콘텐츠 검색을 통해 장기간 존속하는 에이전트 아티팩트에 적대적 콘텐츠를 작성하면, 그 악성 명령이 향후 세션, 사용자, 작업 전반에 걸쳐 다운스트림 에이전트 실행 컨텍스트에 재통합되며, 공격자의 상호작용이 종료된 오래 후에도 계속됩니다. 이 논문은 공식화된 분류법, 벤치마크, 그리고 모델, 공격 목표, 지속성 채널 전반에 걸쳐 정량적 공격 성공 측정이 포함된 샌드박스 툴킷을 제공합니다.
공격 경로
공격자가 사용 가능한 모든 입력 채널(사용자 쿼리, 문서, 웹 페이지, 도구 출력)을 통해 영구적인 에이전트 상태에 적대적 콘텐츠를 작성합니다. 콘텐츠는 에이전트 메모리, RAG 데이터베이스, 파일시스템 아티팩트, 또는 도구 메타데이터에서 지속됩니다. 향후 세션에서(잠재적으로 서로 다른 사용자나 작업 포함) 에이전트의 컨텍스트 구성이 저장된 명령을 포함하여 추가 공격자 상호작용 없이 악성 동작을 트리거합니다. 인젝션과 익스플로이트가 시간적으로 분리되어 실시간 인젝션보다 탐지가 훨씬 어렵습니다.
영향받는 시스템
크로스 세션 영구적 상태를 가진 모든 에이전트 시스템: 장기 메모리를 사용하는 에이전트(MemGPT 스타일), RAG 지원 지식 기반, 공유 파일시스템, MCP 도구 메타데이터, 또는 AGENTS.md 스타일 시스템 프롬프트. 다중 사용자 에이전트 배포가 가장 높은 위험도이며, 단일 저장된 인젝션이 모든 후속 사용자에게 영향을 미칠 수 있습니다. 여러 프로덕션 LLM에서 테스트됨.
완화 방안
제안된 아키텍처 제어: (1) 영구적인 에이전트 상태에 기록되는 모든 콘텐츠에 대한 출처 태깅으로 권한 있는 시스템 프롬프트를 사용자/외부 입력과 구분; (2) 장기 메모리 저장소 및 RAG 지식 기반에 대한 접근 제어 및 무결성 검증; (3) 영구적 상태에 기록되는 항목과 특권 컨텍스트 슬롯으로 상승되는 항목 간의 새니타이제이션 경계; (4) 에이전트 메모리 및 영구적 상태 저장소의 일상적인 적대적 테스팅. 논문과 함께 출시되는 벤치마크 및 샌드박스 툴킷은 지속적인 평가에 사용될 수 있습니다.