Indirect Prompt Injection은 배포 방식이 아닌 아키텍처 문제 — Brave, 클라우드 및 로컬 AI 도구에 대한 공격 시연

기술 설명

Brave Security Research는 2026년 6월 8일 간접 프롬프트 인젝션(제3자 콘텐츠에 임베드된 악의적 지시사항이 AI 에이전트의 작업을 탈취하는 경우)이 클라우드 호스팅 AI(Mozilla Tabstack)와 완전한 온디바이스 AI(macOS용 Cotypist) 모두에 동일하게 작동한다는 것을 실증적으로 입증했습니다. Tabstack의 경우, 웹페이지의 보이지 않는 텍스트로 인해 에이전트가 요약 작업을 포기하고 공격자가 제어하는 양식으로 이동하여 사용자의 대화 기록으로 채우고 제출했습니다. Cotypist의 경우, 로컬 문서의 지시사항이 자동완성 제안에 영향을 미쳤고 자격증명을 노출했습니다. Mozilla는 책임감 있는 공시 후 Tabstack을 패치했습니다. Cotypist는 사용자의 제안 수락이 필요하지만 지시사항 조작에 여전히 영향을 받습니다. 근본 원인은 아키텍처입니다. 두 시스템 모두 신뢰할 수 있는 개발자 프롬프트를 신뢰할 수 없는 외부 데이터와 단일 평면 컨텍스트 윈도우에서 구성하며, 신뢰할 수 있는 경계 강제 조치가 없습니다.

공격 경로

공격자는 AI 도구가 수집할 가능성이 있는 모든 콘텐츠에 악의적 지시사항을 임베드합니다. 웹페이지(흰색 텍스트 또는 너비가 0인 문자로 숨김), 문서, 이메일 콘텐츠, 도구 결과 또는 검색된 컨텍스트입니다. AI 시스템에 직접 액세스할 필요가 없습니다. 페이로드는 피해자의 일반적인 워크플로우를 통해 도달합니다.

영향받는 시스템

신뢰할 수 없는 외부 콘텐츠(웹페이지, 문서, 이메일, 검색 결과)를 시스템 및 사용자 지시사항과 동일한 컨텍스트 윈도우에서 수집하는 모든 AI 에이전트 또는 AI 보조 도구입니다. Mozilla Tabstack(클라우드)과 Cotypist(온디바이스 macOS)에 대해 시연되었습니다. 이전에 동일한 팀에 의해 Opera Neon 및 Perplexity Comet에 대해 시연되었습니다.

완화 방안

아키텍처 완화 조치: 지시사항 채널과 데이터 채널을 분리하는 엄격한 컨텍스트 윈도우 분할; 출처 태깅; 외부 쓰기(양식 제출, API 호출, 파일 쓰기)를 수행하기 전에 명시적 사용자 확인 필요; 그리고 모든 검색된 콘텐츠를 지시사항이 아닌 데이터로 취급합니다. 런타임: 외부 소스에서 수집한 콘텐츠에 프롬프트-인젝션 필터 적용; 예상치 못한 지시사항 소스에 대한 에이전트 결정 추적 로그 및 검사를 수행합니다.