위치: 행동 보증은 거버넌스가 요구하는 안전 주장을 검증할 수 없음

무슨 일이 있었나

이 입장 논문은 행동 보증 방법(평가, 레드팀, 시스템 카드)이 인식론적으로 확립할 수 없는 안전 특성을 검증하도록 요청받고 있다고 주장합니다. 2019년과 2026년 초 사이에 제정된 AI 거버넌스 프레임워크는 "숨겨진 목표의 부재, 통제 상실 전조에 대한 저항, 제한된 참사적 능력과 같은 특성의 검증 가능한 증거"를 요구하지만, 현재 보증 방법론은 관찰 가능한 모델 출력에만 제한되며 잠재적 표현이나 장기 에이전트 행동을 검증할 수 없습니다. 저자들은 이를 "감사 격차"——필요한 검증 접근성과 달성 가능한 검증 접근성 간의 차이——로 형식화하고, 증거 구조가 주장된 안전 주장을 뒷받침하지 않는 경우를 설명하기 위해 "취약한 보증"을 소개합니다. 21개 거버넌스 수단(EU AI Act 제55조, California SB-53, Singapore AI Verify, 남한 AI 기본법 등 포함)을 분석함으로써, 이 논문은 지정학적 및 산업적 압력이 깊은 구조적 검증보다 표면 수준의 행동 지표에 보상하는 인센티브 기울기를 식별합니다. 저자들은 법적 문서에서 행동 증거의 가중치를 제한하고 기계 증거 클래스(선형 프로브, 활성화 패칭, 훈련 전후 비교)를 통한 자발적 배포 전 접근을 확대할 것을 제안합니다. 사전 인쇄본, 피어 리뷰 미진행.

왜 중요한가

프론티어 AI 시스템이 더욱 에이전트적이고 결과 지향적이 됨에 따라, 거버넌스가 요구하는 것과 감사자가 검증할 수 있는 것 사이의 격차는 시스템적 취약성을 만듭니다. 행동 평가를 고위험 안전 주장에 대한 보증으로 신뢰하는 규제자와 이사회는 자신이 측정한다고 주장하는 특성을 감지할 수 없는 보증을 수용할 수 있습니다——이러한 구조적 위험은 모델이 확장됨에 따라 증가합니다.

필요한 조치

AI 거버넌스 프레임워크를 검토하여 행동 테스트를 통해 검증할 수 있는 특성과 기계적 접근을 필요로 하는 특성을 구분하십시오. 준수 전략이 고결과 주장(예: 기만의 부재, 제한된 참사적 능력)에 대해 전적으로 행동 평가에 의존하는 경우, 기계 해석 가능성 방법으로 보충하거나 증거 지원에 맞게 주장 범위를 조정하는 것을 고려하십시오.