Posisi: Kebijakan Keamanan AI Harus Menargetkan Sistem, Bukan Model

Apa yang terjadi

Tim penelitian multi-institusi menerbitkan preprint (arXiv:2605.09504, belum peer-reviewed) yang berpendapat bahwa kebijakan keamanan AI harus mengalihkan perhatian dari pembatasan akses pada model frontier individual ke penilaian kemampuan tingkat sistem. Makalah ini mempresentasikan dua eksperimen: (1) sekumpulan lima model dengan parameter 1,2 miliar mencapai Tingkat Kerugian Efektif 45,8% dalam serangan jailbreak terhadap GPT-4o, menghasilkan 49 pelanggaran dengan keparahan kritis, dan (2) model yang sama melakukan analisis kode sumber gabungan dan binary fuzzing terhadap aplikasi C yang rentan dengan 9 CWE yang ditanam, memulihkan 9 dari 9 kerentanan (100% recall) dalam sekitar empat menit pada MacBook konsumen ketika didukung oleh deteksi pola regex dan klasifikasi crash berbasis AddressSanitizer. Klaim pusat: "kemampuan ofensif yang memotivasi pembatasan [akses model] terutama berada di sekitar model dan dapat direproduksi dengan model open-weights kecil pada perangkat keras komoditas."

Mengapa penting

Jika kemampuan ofensif dapat direproduksi dengan biaya efektif nol menggunakan model open-weights dan perangkat keras komoditas, maka pembatasan akses pada model frontier individual memberikan sedikit nilai defensif. Ini menantang alasan untuk rilis terbatas seperti Mythos Preview Anthropic dan menyarankan bahwa kebijakan keamanan AI harus fokus pada arsitektur sistem, teknik scaffolding, dan konteks penyebaran daripada akses model saja. Preprint, belum peer-reviewed—perlakukan temuan sebagai pendahuluan tetapi relevan dengan kebijakan.

Tindakan yang diperlukan

CISO dan pemimpin keamanan AI harus meninjau postur keamanan internal untuk vektor serangan berbasis scaffold pada Q3, terlepas dari apakah mereka menggunakan model frontier atau open-weights.