MemPoison — Serangan Trojan Tersembunyi yang Menyuntikkan Pintu Belakang Persisten ke Memori Jangka Panjang Agen LLM melalui Dialog Biasa, Memotong Pertahanan Memori Selektif

Penjelasan teknis

Peneliti dari Universitas Tsinghua, Universitas Teknik Informasi PLA, dan institusi afiliasi menerbitkan MemPoison (arXiv:2605.29960, 2026-05-28), serangan poisoning memori novel terhadap agen LLM dengan memori jangka panjang. Berbeda dengan serangan sebelumnya yang mengasumsikan akses penulisan database langsung, MemPoison beroperasi sepenuhnya melalui interaksi dialog black-box biasa. Serangan menggunakan tiga komponen: (1) jembatan relasional semantik yang menggabungkan trigger dan payload berbahaya ke dalam kalimat kohesif, memastikan keduanya bertahan dari ekstraksi memori selektif agen; (2) penyamar entitas yang menyamarkan trigger sebagai entitas bernama untuk melawan tahap penulisan ulang memori agen; (3) optimasi embedding bersama yang mengelompokkan teks yang disuntikkan trigger dekat embedding yang tidak berbahaya untuk kerahasiaan sambil mempertahankan pemisahan untuk pengambilan yang dapat diandalkan. Dievaluasi di seluruh beberapa domain agen dan arsitektur memori, MemPoison mencapai tingkat keberhasilan serangan hingga 0,95 — secara substansial mengungguli metode sebelumnya — sementara pertahanan yang ada (termasuk pendekatan berbasis deteksi dan berbasis isolasi) gagal untuk memitigasinya secara andal.

Vektor serangan

Penyerang berinteraksi dengan agen LLM yang diperkaya memori melalui antarmuka pengguna normalnya. Pesan dialog yang dirancang berisi konstruksi trigger-payload melewati saluran pipa ingestion memori agen, diekstraksi secara selektif (bertahan dari langkah penyaringan), bertahan dalam penyimpanan memori jangka panjang, dan kemudian diambil pada kueri masa depan yang cocok — menyebabkan agen untuk menjalankan perilaku yang ditentukan penyerang ketika kondisi trigger terpenuhi. Tidak ada akses istimewa yang diperlukan; serangan dapat diulang di seluruh sesi.

Sistem yang terdampak

Agen LLM dengan mekanisme memori jangka panjang (sistem gaya MemGPT, agen yang ditingkatkan RAG dengan memori episodik persisten, agen layanan pelanggan dengan riwayat sesi, agen pengkodean dengan memori proyek). Penyebaran produksi OpenClaw, Codex, Claude Code, dan kerangka kerja agen apa pun yang menyimpan riwayat interaksi pengguna secara struktural terekspos jika penyaringan memori dapat dilewati.

Mitigasi

Tidak ada patch langsung; peneliti mengevaluasi berbagai strategi pertahanan dan menemukan keterbatasan fundamental dalam semuanya. Kontrol interim yang direkomendasikan: (1) Perlakukan penyimpanan memori jangka panjang agen sebagai masukan yang merugikan daripada status terpercaya — terapkan deteksi anomali pada entri memori yang diekstraksi, khususnya mencari asosiasi entitas bernama yang tidak biasa. (2) Batasi persistensi memori untuk agen yang tidak dipercaya atau menghadap publik. (3) Memerlukan tinjauan manusia sebelum entri memori yang berisi instruksi pengubah tugas dikomitmen ke penyimpanan persisten. (4) Evaluasi agen yang ditingkatkan memori di bawah masukan adversarial kelas MemPoison sebelum penyebaran produksi.