Institut Keamanan AI Inggris: Model Frontier Telah Melampaui Semua Tren Sebelumnya untuk Kemampuan Siber Otonom

Apa yang terjadi

Institut Keamanan AI Inggris (AISI), yang melakukan evaluasi pra-penerapan atas nama pemerintah Inggris, menerbitkan penelitian independen pada 13 Mei 2026, menunjukkan bahwa Claude Mythos Preview dari Anthropic dan GPT-5.5 dari OpenAI telah secara substansial melampaui semua tren peramalan sebelumnya untuk penyelesaian tugas siber otonom. AISI sebelumnya memperkirakan bahwa horison waktu siber keandalan 80% model frontier berlipat ganda sekitar setiap 5 bulan (turun dari penggandaan 8 bulan pada November 2025). Mythos Preview dan GPT-5.5 kini telah melampaui semua garis tren yang diukur: Mythos menjadi model pertama yang menyelesaikan kedua jangkauan siber AISI (menyelesaikan serangan 32-langkah 'The Last Ones' dalam 6 dari 10 percobaan dan menyelesaikan 'Cooling Tower' — sebelumnya belum terpecahkan — dalam 3 dari 10 percobaan). Penelitian independen dari METR memvalidasi waktu penggandaan sekitar 4 bulan sejak akhir 2024.

Mengapa penting

Laporan AISI menyediakan bukti yang didukung pemerintah dan kuantitatif bahwa kemampuan AI frontier sedang meningkat lebih cepat dari yang diprediksi model sebelumnya. Pergeseran dari penggandaan 5 bulan ke 4 bulan (dan kinerja superior Claude Mythos dan GPT-5.5 pada jangkauan siber) menunjukkan diskontinuitas dalam penskalaan kemampuan. Ini secara langsung mendukung jendela 3–5 bulan yang dikutip oleh Palo Alto dan anggota kongres: jika kompleksitas tugas siber otonom berlipat ganda setiap 4–5 bulan, organisasi memiliki sekitar satu siklus penggandaan untuk memperkuat pertahanan sebelum model generasi saat ini dapat mengeksekusi serangan multitahap secara otonom. AISI sedang mengembangkan evaluasi yang lebih menuntut (jangkauan siber baru, pertahanan siber aktif) untuk mencerminkan kondisi dunia nyata, menetapkan garis dasar untuk tolok ukur kemampuan masa depan.

Tindakan yang diperlukan

CISO harus menggunakan jendela 3–5 bulan sebagai horison perencanaan untuk program deteksi kerentanan dan akselerasi patch. Bantu kecepatan triase kerentanan internal dan penerapan patch terhadap kecepatan model frontier mengidentifikasi cacat baru. Evaluasi apakah garis waktu patching saat ini (sering 30–60 hari) cukup mengingat kecepatan eksploitasi yang dibantu AI. Pertimbangkan untuk mengadopsi arsitektur 'zero standing privilege' dan sikap 'assume breach' yang mengurangi eksposur bahkan ketika patch tertinggal.