Apa yang terjadi
Microsoft merilis ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) sebagai framework open-source berlisensi MIT (diumumkan 10 Juni, dipublikasikan ~2 Juni). Ini mengonversi spesifikasi perilaku bahasa alami, persyaratan produk, dan dokumen tata kelola menjadi skenario evaluasi yang dapat dieksekusi, dataset, metrik, dan scorecard untuk model dan agent AI.
Mengapa penting
Secara langsung mengatasi kesenjangan enterprise di mana perilaku AI agent dievaluasi secara tidak konsisten sebelum produksi. Menurunkan hambatan untuk pengujian perilaku formal — memperlakukan eval sebagai production gate daripada pemikiran akhir — yang kritis untuk industri yang diatur menerapkan agent.
Cakupan penerapan
Tim AI/ML engineering dan AppSec yang membangun atau menerapkan AI agent; adopsi sebagai bagian dari pipeline CI/CD untuk behavioral regression testing. Tersedia sekarang.