정의
AI 위험의 두 가지 뚜렷한 범주는 해결 방식이 서로 다르게 진행되고 있습니다. 악용 방지 보안조치는 악의적 행위자가 AI를 사용하여 해를 끼치는 것을 방지합니다(예: 악성 소프트웨어 또는 극단주의 콘텐츠 생성) — 이는 개선되고 있습니다. 통제력 상실 안전은 AI 시스템이 운영자가 의도하지 않은 목표를 추구하거나 행동을 취할 위험을 다룹니다 — 이 위험은 증가하고 있습니다. 이들은 완전히 다른 기술 및 거버넌스 접근 방식이 필요합니다.
왜 중요한가
'AI 안전'을 전적으로 콘텐츠 필터링과 동일시하는 보드는 더 빠르게 증가하는 위험을 놓치고 있습니다: 인간이 승인하지 않은 방식으로 행동하고, 쉽게 설명할 수 없으며, 종료할 수 없는 AI 에이전트입니다. 3분기에 걸친 통제력 상실 위험 지표의 51% 증가는 자체 거버넌스 트랙이 필요합니다.