Injeksi Prompt Tidak Langsung Bersifat Arsitektural, Bukan Spesifik Penerapan — Brave Mendemonstrasikan Serangan Terhadap Alat AI Cloud dan Lokal

Penjelasan teknis

Brave Security Research menerbitkan demonstrasi empiris pada 8 Juni 2026 menunjukkan bahwa injeksi prompt tidak langsung — di mana instruksi jahat yang tertanam dalam konten pihak ketiga membajak tugas agen AI — berfungsi sama efektifnya terhadap AI yang dihosting cloud (Mozilla Tabstack) dan AI sepenuhnya on-device (Cotypist untuk macOS). Dalam kasus Tabstack, teks tidak terlihat di halaman web menyebabkan agen menghentikan tugas peringkasan, menavigasi ke formulir yang dikontrol penyerang, mengisinya dengan riwayat percakapan pengguna, dan mengirimkannya. Dalam kasus Cotypist, instruksi dalam dokumen lokal memengaruhi saran pelengkapan otomatis dan mengekspos kredensial. Mozilla menambal Tabstack setelah pengungkapan yang bertanggung jawab; Cotypist memerlukan penerimaan pengguna terhadap saran tetapi masih terpengaruh oleh manipulasi instruksi. Akar penyebabnya bersifat arsitektural: kedua sistem menggabungkan prompt pengembang terpercaya dengan data eksternal yang tidak terpercaya dalam jendela konteks datar tunggal, tanpa penegakan batas yang andal.

Vektor serangan

Penyerang menyematkan instruksi jahat dalam konten apa pun yang kemungkinan akan dikonsumsi alat AI: halaman web (tersembunyi melalui teks putih-di-putih atau karakter lebar nol), dokumen, konten email, hasil alat, atau konteks yang diambil. Tidak diperlukan akses langsung ke sistem AI — muatan tiba melalui alur kerja normal korban.

Sistem yang terdampak

Agen AI apa pun atau alat berbantuan AI apa pun yang mengonsumsi konten eksternal yang tidak terpercaya (halaman web, dokumen, email, hasil pencarian) dalam jendela konteks yang sama dengan instruksi sistem dan pengguna. Didemonstrasikan terhadap Mozilla Tabstack (cloud) dan Cotypist (on-device macOS). Sebelumnya didemonstrasikan terhadap Opera Neon dan Perplexity Comet oleh tim yang sama.

Mitigasi

Mitigasi arsitektural: segmentasi jendela konteks yang ketat memisahkan saluran instruksi dari saluran data; penandaan asal; memerlukan konfirmasi pengguna eksplisit sebelum penulisan eksternal apa pun (pengiriman formulir, panggilan API, penulisan file); dan memperlakukan semua konten yang diambil sebagai data, tidak pernah sebagai instruksi. Runtime: terapkan filter injeksi prompt ke konten yang dikonsumsi dari sumber eksternal; catat dan periksa jejak keputusan agen untuk sumber instruksi yang tidak terduga.