무슨 일이 있었나
프린스턴, 스탠포드 HAI, 및 협력 기관의 연구자들이 2026년 5월 19일 arXiv(2605.20520)에 프리프린트를 발표했으며, 벤치마크 기반 역량 평가를 보완하기 위해 '오픈월드 평가'를 제안했다. 이 프레임워크는 벤치마크 규모의 자동화가 아닌 소규모 표본 정성분석을 통해 평가되는 장기 수평, 복잡한 현실 업무를 대상으로 한다. 이 논문은 이전의 오픈월드 평가들(예: Carlini의 C 컴파일러 빌드, Anthropic의 사무실 상점 관리)을 조사하고, CRUX(Collaborative Research for Updating AI eXpectations)를 그러한 평가를 정기적으로 수행하기 위한 프로젝트로 소개하며, 첫 번째 사례를 보고한다: AI 에이전트에게 간단한 iOS 애플리케이션을 개발하여 Apple App Store에 발행하도록 하는 작업. 에이전트는 단 한 번의 회피 가능한 수동 개입만으로 작업을 완료했으며, 이는 오픈월드 평가가 벤치마크가 감지하기 몇 개월 전에 역량에 대한 조기 경고를 제공할 수 있음을 시사한다. 이 논문은 한계를 인정하지만—표본 크기 1, 표준화 부족, 재현의 어려움—이러한 트레이드오프가 새로운 역량을 드러내고 자동화된 채점의 맹점을 노출하기 위해 필요하다고 주장한다.
왜 중요한가
벤치마크 점수는 목표 역량과 평가 환경의 산물을 혼동한다—작업이 최적화하기 쉽거나 훈련 데이터에 유출될 때 과대평가하거나, 에이전트가 테스트된 역량과 무관한 부수적 장애물(CAPTCHA, 속도 제한, 취약한 GUI 요소)에서 실패할 때 과소평가한다. 에이전트가 점점 더 자율적이고 장기 수평인 작업을 수행함에 따라, 벤치마크 신호의 노이즈가 증가한다. 오픈월드 평가는 곧 광범위해질 수 있는 역량에 대한 조기 경고를 제공하여, 기관과 정책입안자들에게 사회적 복원력을 구축하고 배포, 규제, 투자에 관한 전략적 결정을 내릴 시간을 제공한다. 이 프레임워크는 이미 AI 랩 전반에 걸쳐 나타나고 있지만 공유된 방법론이 부족한 관행을 형식화한다.
필요한 조치
평가자들은 현재의 역량 평가가 벤치마크에만 의존하는지 여부를 평가하고 고위험 도메인(자율 시스템, 코드 생성, 장기 수평 계획)에 대해 오픈월드 평가의 시범을 고려해야 한다; 정책 팀은 평가 요구사항을 설계할 때 재현성과 조기 경고 신호 간의 트레이드오프를 주목해야 하며; 연구 기관은 그러한 평가를 체계적으로 수행하기 위한 CRUX 방법론을 검토해야 한다.