Injeksi Prompt Tersimpan Lintas-Sesi dalam Sistem Agentic — Injeksi Persisten Bertahan Melampaui Penghentian Sesi, Secara Diam-diam Mempengaruhi Eksekusi Masa Depan

Penjelasan teknis

Peneliti dari Institute of Information Engineering (Chinese Academy of Sciences), University of Chinese Academy of Sciences, dan Beijing Chaitin Technology memformalisasi 'injeksi prompt tersimpan lintas-sesi' (SPI) sebagai kelas serangan tingkat sistem yang berbeda dari injeksi prompt satu sesi. Dengan membuat analogi eksplisit terhadap stored XSS dalam sistem web, SPI memanfaatkan fakta bahwa sistem agentic modern mempertahankan keadaan persisten — memori, sistem file, RAG stores, metadata tool/MCP, dan system prompts AGENTS.md — yang bertahan lintas sesi. Seorang penyerang yang menulis konten adversarial ke dalam artefak agen jangka panjang apa pun (melalui interaksi biasa, unggahan dokumen, atau pengambilan konten web) menyebabkan instruksi berbahaya tersebut dimasukkan kembali ke dalam konteks eksekusi agen hilir lintas sesi, pengguna, dan tugas masa depan — lama setelah interaksi penyerang berakhir. Makalah ini menyediakan taksonomi terformalkan, benchmark, dan toolkit sandbox dengan pengukuran keberhasilan serangan kuantitatif lintas model, tujuan serangan, dan saluran persistensi.

Vektor serangan

Penyerang menulis konten adversarial ke dalam keadaan agen persisten melalui saluran input apa pun yang tersedia (kueri pengguna, dokumen, halaman web, keluaran tool). Konten tetap ada dalam memori agen, database RAG, artefak sistem file, atau metadata tool. Dalam sesi masa depan — yang berpotensi melibatkan pengguna atau tugas yang berbeda — konstruksi konteks agen menggabungkan instruksi tersimpan, memicu perilaku berbahaya tanpa interaksi penyerang lebih lanjut. Injeksi dan eksploitasi terpisah secara temporal, membuat deteksi jauh lebih sulit daripada injeksi waktu nyata.

Sistem yang terdampak

Sistem agentic apa pun dengan keadaan persisten lintas-sesi: agen yang menggunakan memori jangka panjang (gaya MemGPT), basis pengetahuan berbasis RAG, sistem file bersama, metadata tool MCP, atau system prompts gaya AGENTS.md. Penyebaran agen multi-pengguna memiliki risiko tertinggi karena satu injeksi tersimpan dapat mempengaruhi semua pengguna berikutnya. Diuji lintas berbagai LLM produksi.

Mitigasi

Kontrol arsitektural yang disarankan: (1) penandaan provenance untuk semua konten yang ditulis ke keadaan agen persisten, membedakan system prompts otoritatif dari input pengguna/eksternal; (2) kontrol akses dan verifikasi integritas pada penyimpanan memori jangka panjang dan basis pengetahuan RAG; (3) batas sanitasi antara apa yang ditulis ke keadaan persisten vs. apa yang dinaikkan ke slot konteks istimewa; (4) pengujian adversarial rutin dari memori agen dan penyimpanan keadaan persisten. Benchmark dan toolkit sandbox yang dirilis bersama makalah dapat digunakan untuk evaluasi berkelanjutan.