Apa yang terjadi
Peneliti RAND mengusulkan kerangka evaluasi proporsional (PE) yang disesuaikan dengan model AI berbobot terbuka, yang memperkenalkan faktor risiko yang berbeda dan tidak ditangani oleh praktik evaluasi yang dirancang untuk penerapan berbobot tertutup. Para penulis secara sistematis meninjau praktik evaluasi untuk 37 keluarga model berbobot terbuka yang dirilis antara 2025 dan April 2026, menemukan bahwa hanya satu yang memenuhi semua empat kriteria PE (PE1-4) dan sebagian besar tidak memenuhi salah satu. Kerangka kerja ini mengatasi kesenjangan antara norma evaluasi saat ini—yang mengasumsikan penerapan terkontrol—dan realitas model berbobot terbuka yang dapat di-fine-tune, dikuantisasi, dan diterapkan tanpa pengawasan.
Mengapa penting
Model berbobot terbuka berkembang pesat (37 keluarga dalam ~16 bulan) tetapi kekurangan standar evaluasi yang proporsional dengan risiko unik mereka. Organisasi yang membangun atau menerapkan model berbobot terbuka menghadapi kesenjangan evaluasi: patokan yang ada tidak menilai risiko pasca-rilis seperti fine-tuning untuk tugas berbahaya atau penerapan berskala besar oleh aktor non-ahli. Kerangka kerja ini memberikan dasar terstruktur untuk keputusan kebijakan dan pengadaan.
Tindakan yang diperlukan
Jika organisasi Anda menggunakan atau berencana menggunakan model berbobot terbuka, bandingkan model terhadap kriteria PE1-4 RAND untuk mengidentifikasi kesenjangan evaluasi. Diskusikan dengan tim tata kelola AI Anda apakah proses pemilihan vendor dan penilaian risiko Anda memperhitungkan risiko pasca-penerapan yang spesifik untuk arsitektur berbobot terbuka.