무슨 일이 있었나
Microsoft가 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)를 MIT 라이선스 오픈소스 프레임워크로 출시했습니다(6월 10일 발표, ~6월 2일 공개). 자연어 동작 스펙, 제품 요구사항 및 거버넌스 문서를 AI 모델 및 에이전트를 위한 실행 가능한 평가 시나리오, 데이터셋, 메트릭 및 스코어카드로 변환합니다.
왜 중요한가
프로덕션 전에 AI 에이전트 동작이 일관되게 평가되지 않는 엔터프라이즈 격차를 직접 해결합니다. 형식적 동작 테스팅의 장벽을 낮추고 — 사후 조치가 아닌 프로덕션 게이트로서 이벨을 취급 — 규제 산업에서 에이전트를 배포할 때 매우 중요합니다.
적용 범위
AI/ML 엔지니어링 및 AppSec 팀이 AI 에이전트를 구축하거나 배포할 때 적용합니다. CI/CD 파이프라인의 일부로 동작 회귀 테스팅을 위해 도입하세요. 현재 사용 가능합니다.