何が起きたか
マイクロソフトは、ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)をMITライセンスのオープンソースフレームワークとしてリリースしました(6月10日発表、公開は約6月2日)。自然言語の動作仕様、製品要件、およびガバナンスドキュメントを、実行可能な評価シナリオ、データセット、メトリクス、およびAIモデルとエージェント向けのスコアカードに変換します。
なぜ重要か
AIエージェントの動作が本番運用前に一貫して評価されていないというエンタープライズのギャップに直接対応しています。形式的な動作テストへの参入障壁を低下させ、評価を事後考慮ではなく本番運用のゲートとして扱うことで、エージェントを導入する規制対象業界にとって重要です。
適用範囲
AIエージェントを構築または導入するAI/MLエンジニアリングおよびAppSecチーム向けです。動作回帰テスト用のCI/CDパイプラインの一部として採用してください。現在利用可能です。