Para Legislator AS Diberi Pengarahan tentang Model AI yang Dijailbreak Menghasilkan Rencana Serangan Terperinci dalam Hitungan Detik

Penjelasan teknis

Pusat Inovasi, Teknologi, dan Pendidikan Kontraterorisme Nasional DHS (NCITE) dan Komite Keamanan Tanah Air Dewan Perwakilan mendemonstrasikan model AI yang dijailbreak ('abliterated') kepada para legislator, menunjukkan bagaimana penghapusan penjaga keamanan memungkinkan model menghasilkan instruksi langkah demi langkah untuk serangan dalam waktu kurang dari tiga detik. Model memberikan panduan terperinci tentang penculikan, pengeboman, dan peristiwa korban massal ketika model tersensor menolak. Beberapa model A.S. dan asing didemonstrasikan, dengan nama ditahan.

Vektor serangan

Jailbreaking melalui abliteration (menonaktifkan mekanisme penolakan) atau rekayasa prompt (menguburkan pertanyaan terbatas dalam bahasa akademik yang padat) melewati lapisan keamanan. Aktor ancaman dapat menggunakan model abliterated untuk: (1) menghasilkan rencana serangan terperinci, (2) membuat malware dan kode exploit, (3) merancang kampanye rekayasa sosial, (4) mengotomatisasi pengintaian. Kelompok terkait Rusia telah meretas LLM untuk disinformasi; aktor yang didukung Beijing mencoba memanfaatkan Claude untuk serangan siber otomatis.

Sistem yang terdampak

Semua LLM utama dengan penjaga keamanan rentan terhadap teknik jailbreaking. Model abliterated (varian open-weight yang tersedia untuk publik) mempresentasikan risiko tertinggi. Penerapan perusahaan yang mengandalkan hanya kontrol keamanan pihak penyedia tanpa penyaringan runtime menghadapi paparan.

Mitigasi

Terapkan pertahanan berlapis: (1) terapkan penyaringan konten runtime terpisah dari kontrol lapisan model, (2) pantau pola upaya jailbreak (frasing tidak biasa, prompt bermain peran, instruksi terenkripsi), (3) batasi akses ke model open-weight di lingkungan perusahaan, (4) catat semua kueri LLM untuk analisis keamanan, (5) terapkan prinsip privilege minimal untuk kemampuan model (nonaktifkan eksekusi kode, akses web untuk kasus penggunaan non-teknis). AG Florida memperluas penyelidikan pidana terhadap OpenAI setelah penembakan FSU terkait interaksi ChatGPT.