감시 능력의 상실: AI 시스템이 감시, 모니터링 및 조사를 더 어렵게 만드는 방식

무슨 일이 있었나

UK AI Safety Institute는 2026년 5월 21일 현재의 AI 감시 방법이 시스템이 더욱 능력이 향상됨에 따라 효과적으로 유지될 것인지 여부를 검토하는 연구 보고서를 발표했습니다. 최전선 AI 개발자, 정부, NGO 및 학계 전문가 25명 인터뷰를 토대로 한 이 보고서는 4가지 감시 표면(내부 활성화, 사고의 연쇄(chain-of-thought), 외부 행동, 에이전트 간 통신)을 식별하고 이들이 저하될 수 있는 20개 이상의 경로를 매핑합니다. 주요 발견 사항: 현재 가장 정보량이 많은 모니터링 신호인 chain-of-thought(CoT) 추론은 모델이 인간이 읽을 수 있는 텍스트 대신 내부 상태에서 완전히 추론할 수 있는 잠재적 추론 아키텍처로부터 상당한 압력에 직면해 있습니다. 행동만 모니터링하는 것은 최소한의 기준은 제공하지만 그 자체로는 불충분합니다. 감시를 위한 훈련(예: 정직하거나 투명하도록 모델을 훈련하는 것)은 배포 환경으로 일반화되지 않을 수 있습니다. 이 보고서는 현재의 감시가 개입이 없으면 침식될 가능성이 높은 현재 AI 시스템의 우발적 특성에 의존하며, 신흥 방법은 아직 이를 보상할 만큼 성숙하지 않다고 결론지었습니다.

왜 중요한가

고급 AI의 안전 논증은 배포 전 모델을 감시할 수 있는 능력, 사용 중 행동을 모니터링할 수 있는 능력, 배포 후 사고를 조사할 수 있는 감시에 점점 더 의존하고 있습니다. 감시가 보고서가 제시하는 속도로 저하된다면, 기관들은 배포 전에 오정렬, 보상 해킹, 평가 게이밍 및 기타 위험을 감지할 수 있는 능력을 잃게 되어, 예방(복잡한 사회 기술 시스템에서 잔여 위험을 제거할 수 없음)에만 의존하도록 강요됩니다. 이 보고서는 중요한 가정(잠재적 추론이 지배할 것인지, 행동 모니터링이 충분한지, 정렬 허니팟이 의미가 있는지 여부)에 대한 전문가 의견 불일치를 드러내고 현재 안전 사례의 격차를 노출합니다.

필요한 조치

AI 거버넌스 팀은 자신의 조직이 의존하는 감시 기법을 목록화하고 보고서가 식별하는 저하 경로에 대한 노출을 평가해야 합니다. 모델 개발자는 배포 일정에 대해 chain-of-thought 모니터링이 계속 실행 가능한지 평가하고 대체재로 신흥 기법(white-box 접근, 제어 프로토콜)에 투자해야 합니다. 이사회는 안전 사례가 감시 저하를 명시적으로 설명하는지 또는 현재의 모니터링 용량이 유지될 것이라고 가정하는지 여부를 물어봐야 합니다.