Posisi: Jaminan Perilaku Tidak Dapat Memverifikasi Klaim Keselamatan yang Sekarang Diminta oleh Tata Kelola

Apa yang terjadi

Makalah posisi ini berpendapat bahwa metode jaminan perilaku (evaluasi, red-teaming, system cards) diminta untuk memverifikasi properti keselamatan yang tidak dapat mereka tentukan secara epistemik. Kerangka kerja tata kelola AI yang diberlakukan antara 2019 dan awal 2026 memerlukan "bukti yang dapat ditinjau dari properti seperti ketiadaan tujuan tersembunyi, ketahanan terhadap pendahulu kehilangan kontrol, dan kemampuan bencana yang terbatas," tetapi metodologi jaminan saat ini terbatas pada output model yang dapat diamati dan tidak dapat memverifikasi representasi laten atau perilaku agentic jangka panjang. Para penulis memformalkan ini sebagai "audit gap" — divergensi antara akses verifikasi yang diperlukan dan yang dapat dicapai — dan memperkenalkan "fragile assurance" untuk menggambarkan kasus di mana struktur bukti tidak mendukung klaim keselamatan yang dikemukakan. Melalui analisis 21 instrumen tata kelola (termasuk Pasal 55 EU AI Act, California SB-53, Singapore AI Verify, South Korea AI Basic Act, dan lainnya), makalah mengidentifikasi gradien insentif di mana tekanan geopolitik dan industri memberikan penghargaan kepada proxy perilaku tingkat permukaan daripada verifikasi struktural yang mendalam. Para penulis mengusulkan untuk membatasi bobot bukti perilaku dalam teks hukum dan memperluas akses pra-deployment sukarela dengan kelas bukti mekanistik (linear probes, activation patching, perbandingan sebelum/sesudah-pelatihan). Preprint, tidak ditinjau sejawat.

Mengapa penting

Seiring sistem AI frontier menjadi lebih agentic dan konsekuensial, celah antara apa yang diminta tata kelola dan apa yang dapat diverifikasi auditor menciptakan kerapuhan sistemik. Regulator dan dewan yang mengandalkan evaluasi perilaku untuk klaim keselamatan berisiko tinggi mungkin menerima jaminan yang tidak dapat mendeteksi properti yang diklaim untuk diukur — risiko struktural yang berkembang seiring model diskalakan.

Tindakan yang diperlukan

Tinjau kerangka kerja tata kelola AI Anda untuk membedakan antara properti yang dapat diverifikasi melalui pengujian perilaku dan properti yang memerlukan akses mekanistik. Jika strategi kepatuhan Anda bergantung sepenuhnya pada evaluasi perilaku untuk klaim berakibat tinggi (misalnya, ketiadaan penipuan, kemampuan bencana yang terbatas), pertimbangkan untuk melengkapi dengan metode interpretabilitas mekanistik atau menyesuaikan cakupan klaim agar sesuai dengan dukungan bukti.