Apa yang terjadi
UK AI Safety Institute menerbitkan laporan penelitian pada 21 Mei 2026, menguji apakah metode pengawasan AI saat ini akan tetap efektif seiring sistem menjadi lebih canggih. Berdasarkan 25 wawancara ahli di seluruh pengembang AI frontier, pemerintah, LSM, dan akademisi, laporan mengidentifikasi empat permukaan pengawasan — aktivasi internal, penalaran chain-of-thought, tindakan eksternal, dan komunikasi antar-agen — dan memetakan lebih dari dua puluh jalur di mana mereka dapat merosot. Temuan utama: penalaran chain-of-thought (CoT), saat ini sinyal pemantauan paling informatif, menghadapi tekanan signifikan dari arsitektur penalaran laten yang memungkinkan model bernalar sepenuhnya dalam keadaan internal daripada teks yang dapat dibaca manusia; pemantauan tindakan saja memberikan lantai tetapi tidak cukup dengan sendirinya; dan pelatihan untuk pengawasan (misalnya, melatih model menjadi jujur atau transparan) mungkin tidak digeneralisasikan ke konteks penyebaran. Laporan menyimpulkan bahwa pengawasan saat ini bergantung pada properti kontinjen dari sistem AI hari ini yang mungkin akan erosi tanpa intervensi, dan metode yang berkembang belum cukup matang untuk mengimbangi.
Mengapa penting
Argumen keselamatan untuk AI lanjutan semakin mengandalkan pengawasan — kemampuan untuk mengaudit model sebelum penyebaran, memantau perilaku selama penggunaan, dan menyelidiki insiden setelah terjadi. Jika pengawasan merosot dengan kecepatan yang dilaporkan, institusi akan kehilangan kemampuan untuk mendeteksi misalignment, reward hacking, evaluation gaming, dan risiko lainnya sebelum penyebaran, memaksa ketergantungan eksklusif pada pencegahan (yang tidak dapat menghilangkan risiko residual dalam sistem sosio-teknis yang kompleks). Laporan ini mengungkap ketidaksepakatan ahli tentang asumsi kritis — apakah penalaran laten akan mendominasi, apakah pemantauan tindakan cukup, apakah honeypot penyelarasan bermakna — mengekspos celah dalam kasus keselamatan saat ini.
Tindakan yang diperlukan
Tim tata kelola AI harus menginventaris teknik pengawasan mana yang bergantung organisasi mereka dan menilai paparan terhadap jalur degradasi yang diidentifikasi laporan; pengembang model harus mengevaluasi apakah pemantauan chain-of-thought tetap layak untuk garis waktu penyebaran mereka dan berinvestasi dalam teknik yang berkembang (akses white-box, protokol kontrol) sebagai fallback; dewan harus menanyakan apakah kasus keselamatan secara eksplisit memperhitungkan degradasi pengawasan atau mengasumsikan kapasitas pemantauan saat ini akan tetap ada.