Model Pertahanan WARD Melindungi Web Agent Terhadap Prompt Injection dengan Recall Hampir Sempurna

Penjelasan teknis

Peneliti memperkenalkan WARD (Web Agent Robust Defense against Prompt Injection), model penjaga untuk mengamankan web agent terhadap serangan prompt injection yang tertanam dalam konten HTML atau antarmuka visual. WARD dilatih pada WARD-Base (177K sampel dari 719 URL lalu lintas tinggi) dan WARD-PIG (dataset khusus untuk serangan yang menargetkan penjaga). Sistem ini mencapai recall hampir sempurna pada benchmark out-of-distribution, mempertahankan tingkat false positive rendah, dan berjalan efisien secara paralel dengan agen tanpa latensi tambahan.

Vektor serangan

Web agent menghadapi injeksi prompt adversarial yang tertanam dalam halaman web yang mereka kunjungi—melalui komentar HTML, CSS tidak terlihat, atau prosa semantik yang dihasilkan LLM dalam ulasan pengguna, postingan forum, iklan, atau widget tertanam. Model penjaga yang ada menderita generalisasi terbatas ke domain yang belum pernah dilihat, false positive tinggi, latensi deployment, dan kerentanan terhadap serangan adversarial yang berkembang atau menargetkan penjaga secara langsung.

Sistem yang terdampak

Web agent yang secara otonom menjelajahi situs web dan berinteraksi dengan konten HTML, termasuk asisten AI berbasis browser, agen belanja otonom, dan agen penelitian yang menavigasi lingkungan web terbuka. Pertahanan ini berlaku untuk sistem yang terbuka terhadap konten pihak ketiga yang tidak terpercaya selama eksekusi tugas.

Mitigasi

Terapkan WARD sebagai model penjaga paralel yang memeriksa status halaman web (HTML dan screenshot) sebelum eksekusi agen. Kerangka kerja pelatihan adversarial adaptif WARD (A3T) memungkinkan penguatan iteratif melalui ko-evolusi penyerang dan penjaga berbasis memori. Desain latensi rendah sistem memungkinkan perlindungan real-time tanpa mengurangi performa agen.