MemPoison — 일반적인 대화를 통해 LLM 에이전트의 장기 메모리에 지속적인 백도어를 주입하는 은폐된 트로이 공격, 선택적 메모리 방어 우회

기술 설명

칭화대학교, PLA 정보공학대학교 및 관련 기관의 연구원들이 장기 메모리를 가진 LLM 에이전트에 대한 새로운 메모리 중독 공격인 MemPoison(arXiv:2605.29960, 2026-05-28)을 발표했다. 직접 데이터베이스 쓰기 접근을 가정하는 이전 공격과 달리, MemPoison은 전적으로 일반적인 블랙박스 대화 상호작용을 통해 작동한다. 공격은 세 가지 구성 요소를 사용한다: (1) 트리거와 악성 페이로드를 결집된 문장으로 결합하는 의미 관계 브릿지로, 에이전트의 선택적 메모리 추출에서 둘 다 생존하도록 보장; (2) 에이전트의 메모리 재작성 단계에 저항하도록 트리거를 명명된 엔티티로 위장하는 엔티티 마스커레이딩; (3) 트리거 주입 텍스트를 은폐를 위해 양성 임베딩 근처에 클러스터링하는 동시에 신뢰할 수 있는 검색을 위해 분리를 유지하는 결합 임베딩 최적화. 여러 에이전트 도메인 및 메모리 아키텍처에서 평가된 MemPoison은 0.95까지의 공격 성공률을 달성하며 — 이전 방법을 크게 능가 — 기존 방어(탐지 기반 및 격리 기반 접근 포함)는 이를 확실히 완화하지 못한다.

공격 경로

공격자는 메모리 증강 LLM 에이전트와 일반 사용자 인터페이스를 통해 상호작용한다. 트리거-페이로드 구성을 포함하는 작성된 대화 메시지는 에이전트의 메모리 수집 파이프라인을 통과하고, 선택적으로 추출되며(필터링 단계에서 생존), 장기 메모리 저장소에 지속되고, 향후 일치하는 쿼리에서 이후 검색되어 — 트리거 조건이 충족될 때 에이전트가 공격자 지정 동작을 실행하게 한다. 특권 접근 불필요; 공격은 세션 전반에 걸쳐 반복 가능하다.

영향받는 시스템

장기 메모리 메커니즘(MemGPT 스타일 시스템, 지속적인 에피소드 메모리를 가진 RAG 증강 에이전트, 세션 히스토리를 가진 고객 서비스 에이전트, 프로젝트 메모리를 가진 코딩 에이전트)을 갖춘 LLM 에이전트. OpenClaw, Codex, Claude Code의 프로덕션 배포 및 사용자 상호작용 히스토리를 저장하는 모든 에이전트 프레임워크는 메모리 필터링이 우회될 수 있다면 구조적으로 노출된다.

완화 방안

직접 패치 없음; 연구원들은 여러 방어 전략을 평가했고 모두에서 기본적인 제한을 발견했다. 권장되는 임시 제어: (1) 에이전트 장기 메모리 저장소를 신뢰할 수 있는 상태가 아닌 적대적 입력으로 취급 — 추출된 메모리 항목에 대한 이상 탐지 적용, 특히 비정상적으로 구체적인 명명된 엔티티 연관을 찾음. (2) 신뢰할 수 없거나 공개적 에이전트의 메모리 지속성 제한. (3) 작업 수정 명령어를 포함하는 메모리 항목이 지속적 저장소에 커밋되기 전에 인간 검토 요구. (4) 프로덕션 배포 전에 MemPoison 클래스 적대적 입력 하에서 메모리 증강 에이전트 평가.