Kerentanan  ·  2026-04-11

Google DeepMind Menerbitkan Taksonomi 'AI Agent Traps': Enam Kategori Serangan terhadap Agen Otonom

KerentananHigh dampak
Para peneliti Google DeepMind menerbitkan kerangka kerja sistematis pertama untuk memahami serangan berbasis web terhadap agen AI otonom. Makalah ini mengidentifikasi enam kategori 'AI Agent Traps': injeksi konten, manipulasi semantik, korupsi status kognitif, eksfiltrasi data, serangan sistemik, dan manipulasi manusia-dalam-loop. Tingkat keberhasilan serangan eksfiltrasi data melebihi 80% di seluruh lima agen yang diuji.
Penyerang menanamkan instruksi berbahaya dalam komentar HTML, teks yang diposisikan CSS tidak terlihat, atau data gambar steganografis. Instruksi-instruksi ini tidak terlihat bagi moderator manusia tetapi diproses oleh agen AI. Keracunan pengetahuan RAG mencapai tingkat keberhasilan backdoor melebihi 80% pada keracunan data kurang dari 0,1%.
Semua agen AI otonom yang menjelajahi web, memproses dokumen eksternal, atau berinteraksi dengan sistem retrieval-augmented generation. Termasuk agen yang dibangun di atas GPT, Claude, Gemini, dan platform LLM utama lainnya.
Implementasikan sanitasi input untuk konten yang dikonsumsi agen, terapkan pertahanan runtime terhadap injeksi prompt, tetapkan kerangka kerja tata kelola konten, dan pertahankan pengawasan manusia untuk tindakan agen dengan risiko tinggi. Makalah ini merekomendasikan augmentasi data pelatihan untuk memperkuat model yang mendasarinya.
Sumber
SSRN — AI Agent Traps (DeepMind Paper)SecurityWeek — Google DeepMind Researchers Map Web Attacks Against AI AgentsCyberSecurityNews — Hackers Hijack AI Agents Through Malicious Web Content
Lihat di umpan langsung Jelajahi temuan keamanan dan tata kelola AI terkait — diperbarui setiap pagi.
Buka umpan →