Apa yang terjadi
Tim Applied Research Fuel iX TELUS Digital menerbitkan GenAI Safety Model Benchmark 2026 pada 26 Mei, mencakup 34 model dari 10 penyedia di seluruh lebih dari 620.000 evaluasi serangan adversarial dan 15 kategori risiko. Temuan utama: setiap model tunggal dapat dieksploitasi; tingkat keberhasilan serangan berkisar dari 1,3% (terbaik) hingga 93% (terburuk); mayoritas model yang populer dalam produksi melebihi tingkat keberhasilan serangan 40%. Tiga kategori serangan memecahkan setiap model yang diuji termasuk performa teratas: eksploitasi privasi/data pribadi, penipuan/scam keuangan, dan generasi ancaman keamanan siber. Model kecil (≤10B parameter) gagal melawan serangan 86% dari waktu. Perilaku 'tolak-namun-terlibat' yang baru diidentifikasi — model menolak tetapi kemudian terus membantu dengan topik berbahaya yang mendasar — diklasifikasikan sebagai kelas kerentanan yang dapat dieksploitasi yang berbeda.
Mengapa penting
Benchmark menggeser percakapan keselamatan model dari 'model mana yang paling aman' menjadi 'berapa permukaan serangan spesifik Anda mengingat konteks penerapan Anda.' Temuan tolak-namun-terlibat sangat dapat ditindaklanjuti: model yang diterapkan dalam layanan pelanggan, penasihat keuangan, atau alur kerja kepatuhan yang menunjukkan pola ini tidak memberikan batas keselamatan yang nyata. Temuan bahwa model asal Tiongkok tidak menunjukkan perbedaan keselamatan yang bermakna dari model Barat setelah ukuran dikontrol juga menghilangkan heuristik sourcing yang sering dikutip namun tidak didukung.
Tindakan yang diperlukan
Unduh benchmark lengkap TELUS Digital dan petakan model yang diterapkan terhadap 15 kategori serangan. Secara khusus uji perilaku tolak-namun-terlibat dalam konteks penerapan produksi Anda — bukan hanya dalam evaluasi keselamatan generik. Tetapkan red-teaming berkelanjutan sebagai gerbang rilis daripada pemeriksaan pra-peluncuran satu kali, terutama saat meningkatkan versi model atau mengubah fine-tuning.