arXiv: 'Plant, Persist, Trigger' — Sleeper Attack Research Formalises Cross-Interaction Agent Memory Poisoning sebagai Distinct Threat Class

Apa yang terjadi

Peneliti dari University of Science and Technology of China, National University of Singapore, Singapore Management University, dan Shanghai AI Laboratory menerbitkan preprint pada 27 Mei 2026 (arXiv:2605.28201) yang memformalkan model ancaman 'Sleeper Attack' untuk agen LLM. Diuji pada 1.896 instans di tujuh LLM (open-source dan closed-source), studi menunjukkan bahwa konten adversarial yang disuntikkan ke dalam data yang dikembalikan alat, halaman web, atau konteks MCP dapat bertahan dalam keadaan agen (konteks sesi, memori, keterampilan yang dapat digunakan kembali) di seluruh interaksi berganda dan diaktifkan melalui kueri pengguna yang jinak — mencapai tingkat keberhasilan serangan lebih tinggi daripada baseline interaksi tunggal bahkan pada agen yang tampak tahan terhadap injeksi prompt langsung.

Mengapa penting

Postur defensif yang ada untuk AI beragensi — termasuk sebagian besar pertahanan injeksi prompt — mengasumsikan bahwa konten adversarial harus memicu perilaku berbahaya dalam permintaan pengguna yang sama. Sleeper Attacks membatalkan asumsi ini: instruksi berbahaya yang ditanamkan dalam memori agen dapat tetap diam selama berhari-hari atau berminggu-minggu sebelum diaktifkan oleh permintaan jinak yang sama sekali tidak terkait, membuat deteksi dan atribusi jauh lebih sulit. Penelitian ini, yang dipengaruhi bersama dari Singapura, memiliki relevansi langsung bagi perusahaan yang menerapkan sistem AI beragensi yang mengaktifkan memori atau jangka panjang.

Tindakan yang diperlukan

Tinjau apakah agen yang diterapkan memiliki memori persisten atau toko keterampilan yang dapat digunakan kembali, dan terapkan kontrol yang lebih ketat: batasi penulisan ke memori dari konten eksternal, tambahkan pemeriksaan integritas pada keterampilan yang dimuat, dan implementasikan pemantauan perilaku yang mencari panggilan alat anomali yang berkorelasi di seluruh sesi — bukan hanya dalam satu permintaan.