정의
NIST의 수학적 증명: 유한한 안전 규칙 집합이 AI 시스템에 적용되더라도 모든 해로운 입력이나 출력을 차단할 수 없다는 사실. 항상 적대자가 이를 우회할 수 있는 경계 사례(edge case)가 존재한다. 이는 AI 안전 가드레일이 일회성 해결책이 아닌 지속적으로 업데이트되는 방어 수단으로 취급되어야 함을 의미한다.
왜 중요한가
이사회와 규제 당국은 때때로 AI 시스템이 안전 평가를 통과하면 영구적으로 안전하다고 가정한다. NIST의 증명은 이러한 가정이 잘못되었음을 보여준다: 안전은 지속적인 모니터링, 레드팀 활동, 업데이트를 요구하는 연속적인 프로세스이며, 무기한 유효한 인증이 아니다.