Google DeepMind Menerbitkan Taksonomi 'AI Agent Traps': Enam Kategori Serangan terhadap Agen Otonom

Penjelasan teknis

Para peneliti Google DeepMind menerbitkan kerangka kerja sistematis pertama untuk memahami serangan berbasis web terhadap agen AI otonom. Makalah ini mengidentifikasi enam kategori 'AI Agent Traps': injeksi konten, manipulasi semantik, korupsi status kognitif, eksfiltrasi data, serangan sistemik, dan manipulasi manusia-dalam-loop. Tingkat keberhasilan serangan eksfiltrasi data melebihi 80% di seluruh lima agen yang diuji.

Vektor serangan

Penyerang menanamkan instruksi berbahaya dalam komentar HTML, teks yang diposisikan CSS tidak terlihat, atau data gambar steganografis. Instruksi-instruksi ini tidak terlihat bagi moderator manusia tetapi diproses oleh agen AI. Keracunan pengetahuan RAG mencapai tingkat keberhasilan backdoor melebihi 80% pada keracunan data kurang dari 0,1%.

Sistem yang terdampak

Semua agen AI otonom yang menjelajahi web, memproses dokumen eksternal, atau berinteraksi dengan sistem retrieval-augmented generation. Termasuk agen yang dibangun di atas GPT, Claude, Gemini, dan platform LLM utama lainnya.

Mitigasi

Implementasikan sanitasi input untuk konten yang dikonsumsi agen, terapkan pertahanan runtime terhadap injeksi prompt, tetapkan kerangka kerja tata kelola konten, dan pertahankan pengawasan manusia untuk tindakan agen dengan risiko tinggi. Makalah ini merekomendasikan augmentasi data pelatihan untuk memperkuat model yang mendasarinya.