Singapore Government AI Agents Sandbox: 간접 프롬프트 주입을 통한 RCE 확인됨 - 최고 수준의 프로덕션 에이전틱 공격 벡터

기술 설명

Singapore의 CSA, GovTech, IMDA 및 Google의 공동 AI Agents Sandbox — 2026년 5월 20일 발표된 실제 공공 부문 워크플로우에서 컴퓨터 사용 에이전트에 대한 4개월간의 실증 연구 — 간접 프롬프트 주입을 가장 주요한 사이버보안 위험으로 식별했으며, 원격 코드 실행(RCE)을 트리거할 수 있는 기능을 명시적으로 지적했습니다. 이 발견은 정부 디지털 서비스에 대해 자동화된 QA, AI 안전 테스팅 및 사회 지원 워크플로우에서 컴퓨터 사용 에이전트를 테스트한 결과에서 나왔습니다. 샌드박스는 웹 콘텐츠, 문서 또는 외부 시스템 출력과 상호작용하는 에이전트가 직접 사용자 지시가 아닌 에이전트가 처리하는 콘텐츠에 포함된 악성 페이로드를 통해 의도하지 않은 작업(임의 코드 실행 포함)을 수행하도록 조작될 수 있음을 문서화했습니다.

공격 경로

환경 콘텐츠를 통한 간접 프롬프트 주입: 악의적 행위자가 에이전트가 검색하고 처리하는 웹 페이지, 문서, API 응답 또는 기타 외부 콘텐츠에 주입 페이로드를 포함시킵니다. 에이전트는 검색된 콘텐츠를 신뢰할 수 있는 컨텍스트로 취급하고 포함된 지시를 따릅니다. 셸 명령, 코드 실행 또는 파일 시스템 작업에 대한 액세스 권한이 있는 컴퓨터 사용 에이전트의 경우, 이러한 경로는 직접적인 사용자 상호작용 없이 완전한 RCE를 달성할 수 있습니다.

영향받는 시스템

에이전트가 외부 콘텐츠를 처리하는 모든 에이전틱 AI 배포 (웹 브라우징 에이전트, 문서 처리 에이전트, 이메일 에이전트, RAG 기반 에이전트, 컴퓨터 사용 에이전트). 특히 높은 위험: 셸 실행, 코드 인터프리터, 파일 쓰기 액세스 또는 환경 자격증명을 사용한 외부 API 호출을 포함하는 도구 호출 기능이 있는 에이전트.

완화 방안

아키텍처 완화 조치: (1) 지시 콘텐츠(시스템 프롬프트 및 신뢰할 수 있는 사용자 입력)를 검색된/환경 콘텐츠와 엄격하게 분리 — 모든 외부 콘텐츠를 지시가 아닌 신뢰할 수 없는 데이터로 취급합니다. (2) 최소한의 필요한 권한으로 도구 호출 허용 목록을 구현하고, 외부 콘텐츠 검색 도구에 환경 자격증명 액세스를 절대 부여하지 않습니다. (3) 에이전트 추론에 의해 도구 호출이 트리거되기 전에 출력 검증 레이어를 배포합니다. (4) 모든 도구 호출을 상관관계 ID로 기록하고 검색된 콘텐츠에서 이상한 지시 패턴을 표시합니다. (5) 프로덕션 릴리스 전에 간접 프롬프트 주입 테스트 스위트로 모든 에이전틱 배포를 테스트 — 이를 선택적 QA 단계가 아닌 필수 보안 게이트로 취급합니다.