싱가포르 정부–Google AI 에이전트 샌드박스: 프로덕션 에이전트 배포에서 간접 프롬프트 인젝션이 주요 사이버보안 위험으로 식별됨

무슨 일이 있었나

2026년 5월 20일, 싱가포르 사이버보안청(CSA), GovTech Singapore, IMDA, Google은 2025년 8월부터 약 4개월에 걸쳐 진행된 글로벌 최초의 AI 에이전트 샌드박스 연구 결과를 발표했다. 샌드박스는 정부 디지털 서비스의 자동화된 품질 보증, 배포된 챗봇의 AI 안전 테스트, 사회 지원 신청 안내라는 3가지 실제 공공 부문 사용 사례에서 컴퓨터 사용 에이전트를 테스트했다. 모든 사용 사례에 걸쳐 식별된 가장 두드러진 사이버보안 위험은 간접 프롬프트 인젝션이었다. 구체적으로는 에이전트가 환경에서 마주치는 악성 콘텐츠를 통해 의도하지 않은 동작(원격 코드 실행(RCE) 포함)을 수행하도록 속을 수 있는 위험이었다. 보고서는 또한 인간 감시 보정, 에이전트-데이터 상호작용 중 데이터 보호, 그리고 제3자 에이전트 맞춤화를 주요 위험 주제로 식별했다. 보고서는 위험 기반 인간 감시(고위험의 경우 사전 승인, 가역적 저위험의 경우 사후 검토), 플랫폼, 조직, 사용자 계층에 걸친 분산된 보안조치, 그리고 통제된 점진적 배포를 권장한다.

왜 중요한가

이것은 간접 프롬프트 인젝션 → RCE가 에이전트 시스템에서 단순한 이론적 우려가 아닌 실제 프로덕션 위험임을 확인하는 첫 번째 정부 지원 실증 연구다. 이 발견은 강한 실질적 무게를 지닌다: 강화된 시스템에 대한 레드팀 연습이 아니라 컴퓨터 사용 에이전트를 실행하는 실제 공공 부문 워크플로우였기 때문이다. 다중 기관 싱가포르의 승인(CSA + GovTech + IMDA)은 프롬프트 인젝션 방어가 싱가포르 정부 AI 조달에서 그리고 확장하여 AI Verify 프레임워크 같은 공급업체 인증에서 예상되는 기본 사항이 될 것임을 시사한다.

필요한 조치

간접 프롬프트 인젝션을 모든 에이전트 배포의 필수 테스트 사례로 취급하라. 특히 웹을 탐색하거나, 이메일을 읽거나, 외부 출처의 문서를 처리하는 컴퓨터 사용 에이전트의 경우 더욱 그러하다. RCE 경로 프롬프트 인젝션 테스트를 배포 전 보안 검토 체크리스트에 추가하라. 에이전트 오케스트레이션 계층이 명령 콘텐츠를 검색/외부 콘텐츠로부터 분리하는지, 그리고 도구 호출 출력이 신뢰할 수 없는 입력으로 취급되는지를 평가하라.