Evaluasi kami terhadap kemampuan cyber OpenAI's GPT-5.5

Apa yang terjadi

UK AI Safety Institute mengevaluasi GPT-5.5 OpenAI pada tugas kemampuan cyber menggunakan latihan format capture-the-flag yang dirancang untuk menilai keterampilan penelitian dan eksploitasi kerentanan. GPT-5.5 adalah model kedua (setelah Claude Mythos Preview milik Anthropic) yang menyelesaikan simulasi serangan jaringan perusahaan AISI end-to-end—sebuah latihan multi-langkah yang diperkirakan memerlukan waktu sekitar 20 jam bagi manusia. Hasil dari checkpoint awal menunjukkan GPT-5.5 mencapai tingkat performa cyber yang serupa dengan Claude Mythos, menunjukkan bahwa beberapa pengembang frontier berkumpul pada kemampuan cyber ofensif yang canggih.

Mengapa penting

Dua model frontier independen dari pengembang yang berbeda kini menunjukkan kemampuan intrusi cyber otonom end-to-end dalam pengujian terstruktur. Hal ini menandakan bahwa AI cyber ofensif yang canggih bukan lagi kemampuan sekali jadi tetapi merupakan hasil yang dapat direproduksi di seluruh ekosistem lab frontier, memampatkan garis waktu bagi organisasi defensif untuk mempersiapkan diri menghadapi serangan yang ditingkatkan AI.

Tindakan yang diperlukan

Kumpulkan tim red team dan pemimpin pertahanan cyber Anda untuk meninjau metodologi evaluasi yang dipublikasikan AISI dan menilai apakah model ancaman organisasi Anda memperhitungkan intrusi otonom multi-langkah. Perbarui playbook respons insiden untuk mencakup skenario di mana penyerang memanfaatkan AI untuk reconnaissance, lateral movement, dan eksploitasi pada kecepatan mesin.