Apa yang terjadi
Peneliti dari Princeton, Stanford HAI, dan kolaborator menerbitkan preprint di arXiv (2605.20520) pada 19 Mei 2026, mengusulkan 'evaluasi dunia terbuka' sebagai pelengkap penilaian kemampuan berbasis benchmark. Kerangka kerja menargetkan tugas-tugas dunia nyata dengan cakupan panjang dan berantakan yang dinilai melalui analisis kualitatif sampel kecil daripada otomasi skala benchmark. Makalah ini meninjau evaluasi dunia terbuka sebelumnya (misalnya, C compiler build milik Carlini, manajemen toko kantor Anthropic), memperkenalkan CRUX (Collaborative Research for Updating AI eXpectations) sebagai proyek untuk melakukan evaluasi tersebut secara teratur, dan melaporkan instansi pertama: memberi tugas kepada agen AI untuk mengembangkan dan menerbitkan aplikasi iOS sederhana ke Apple App Store. Agen menyelesaikan tugas dengan hanya satu intervensi manual yang dapat dihindari, menunjukkan bahwa evaluasi dunia terbuka dapat memberikan peringatan dini tentang kemampuan berbulan-bulan sebelum benchmark mendeteksinya. Makalah ini mengakui keterbatasan — ukuran sampel satu, kurangnya standarisasi, kesulitan mereproduksi — tetapi berpendapat bahwa pertukaran ini diperlukan untuk mengungkap kemampuan yang muncul dan mengungkapkan titik buta dalam penilaian otomatis.
Mengapa penting
Skor benchmark mencampur kemampuan target dengan artefak lingkungan evaluasi — overestimasi ketika tugas mudah dioptimalkan atau bocor ke dalam data pelatihan, underestimasi ketika agen gagal pada hambatan insidental (CAPTCHA, batas laju, elemen GUI yang rapuh) yang tidak terkait dengan kemampuan yang diuji. Seiring agen mengambil tugas yang semakin otonom dan bercakupan panjang, kebisingan dalam sinyal benchmark tumbuh. Evaluasi dunia terbuka memberikan peringatan dini tentang kemampuan yang mungkin segera menjadi tersebar luas, memberikan waktu tunggu kepada institusi dan pembuat kebijakan untuk membangun ketahanan masyarakat dan menginformasikan keputusan strategis tentang penerapan, regulasi, dan investasi. Kerangka kerja ini memformalkan praktik yang sudah muncul di lab AI tetapi kurang metodologi bersama.
Tindakan yang diperlukan
Penilai harus menilai apakah penilaian kemampuan saat ini mengandalkan benchmark secara eksklusif dan mempertimbangkan untuk memulai evaluasi dunia terbuka untuk domain berisiko tinggi (sistem otonom, pembuatan kode, perencanaan cakupan panjang); tim kebijakan harus mencatat pertukaran antara reproducibility dan sinyal peringatan dini ketika merancang persyaratan evaluasi; organisasi penelitian harus meninjau metodologi CRUX untuk melakukan evaluasi tersebut secara sistematis.