Sandbox AI Agents Pemerintah Singapura: Indirect Prompt Injection yang Memungkinkan RCE Dikonfirmasi sebagai Vektor Serangan Agentic Produksi Teratas

Penjelasan teknis

Sandbox AI Agents bersama — hasil kolaborasi CSA Singapura, GovTech, IMDA, dan Google — studi empiris selama empat bulan terhadap computer-use agents dalam alur kerja sektor publik nyata yang dipublikasikan 20 Mei 2026 — mengidentifikasi indirect prompt injection sebagai risiko keamanan siber paling menonjol, secara eksplisit mencatat kemampuan untuk memicu remote code execution (RCE). Temuan tersebut muncul dari pengujian computer-use agents dalam QA otomatis, pengujian keamanan AI, dan alur kerja bantuan sosial terhadap layanan digital pemerintah. Sandbox mendokumentasikan bahwa agents yang berinteraksi dengan konten web, dokumen, atau keluaran sistem eksternal dapat dimanipulasi untuk melakukan tindakan yang tidak diinginkan — termasuk mengeksekusi kode sembarang — melalui payload berbahaya yang tertanam dalam konten yang diproses agent daripada instruksi pengguna langsung.

Vektor serangan

Indirect prompt injection melalui konten lingkungan: aktor berbahaya menyematkan payload injeksi dalam halaman web, dokumen, respons API, atau konten eksternal apa pun yang diambil dan diproses agent. Agent, memperlakukan konten yang diambil sebagai konteks terpercaya, mengikuti instruksi yang disematkan. Dalam computer-use agents dengan akses ke perintah shell, eksekusi kode, atau operasi sistem file, jalur ini dapat mencapai RCE penuh tanpa interaksi pengguna langsung apa pun.

Sistem yang terdampak

Semua deployment AI agentic di mana agents memproses konten eksternal (web browsing agents, document-processing agents, email agents, RAG-based agents, computer-use agents). Risiko khususnya tinggi: agents dengan kemampuan tool-call yang mencakup eksekusi shell, code interpreters, akses penulisan file, atau panggilan API eksternal dengan ambient credentials.

Mitigasi

Mitigasi arsitektur: (1) Pisahkan secara ketat konten instruksional (dari system prompt dan input pengguna terpercaya) dari konten yang diambil/lingkungan — perlakukan semua konten eksternal sebagai data yang tidak dipercaya, bukan instruksi. (2) Implementasikan allowlists tool-call dengan izin minimum yang diperlukan; jangan pernah berikan akses ambient credential kepada tools pengambilan konten eksternal. (3) Deploy output validation layers sebelum eksekusi tool-call apa pun dipicu oleh reasoning agent. (4) Catat semua tool calls dengan correlation IDs dan tandai pola instruksi anomali dalam konten yang diambil. (5) Uji semua deployment agentic dengan indirect prompt injection test suites sebelum rilis produksi — perlakukan ini sebagai mandatory security gate, bukan langkah QA opsional.