기술 설명
국토안보부(DHS) 국가 반테러 혁신, 기술 및 교육 센터(NCITE)와 하원 국토안보위원회가 의원들에게 탈옥된('abliterated') AI 모델을 시연했으며, 안전 장치 제거가 모델이 3초 이내에 공격을 위한 단계별 지시사항을 생성할 수 있게 함을 보여주었습니다. 검열된 모델이 거부할 때 모델들은 납치, 폭탄 테러 및 대량 사상자 사건에 대한 상세한 지침을 제공했습니다. 여러 미국 및 해외 모델이 시연되었으며 이름은 공개되지 않았습니다.
공격 경로
Abliteration(거부 메커니즘 비활성화) 또는 프롬프트 엔지니어링(제한된 쿼리를 복잡한 학술 언어에 숨김)을 통한 탈옥은 안전 계층을 우회합니다. 위협 행위자는 abliterated 모델을 사용하여: (1) 상세한 공격 계획 생성, (2) 악성코드 및 익스플로잇 코드 생성, (3) 사회공학적 캠페인 제작, (4) 정찰 자동화를 할 수 있습니다. 러시아 연계 그룹은 거짓정보 확산을 위해 LLM을 탈취했으며, 베이징 지원 행위자는 자동화된 사이버 공격을 위해 Claude를 무기화하려고 시도했습니다.
영향받는 시스템
안전 장치가 있는 모든 주요 LLM은 탈옥 기법에 취약합니다. Abliterated 모델(공개적으로 이용 가능한 오픈 가중치 변형)이 가장 높은 위험을 제시합니다. 런타임 필터링 없이 제공자 측 안전 제어에만 의존하는 엔터프라이즈 배포는 노출 위험에 직면합니다.
완화 방안
심층 방어를 구현합니다: (1) 모델 계층 제어와 별도인 런타임 콘텐츠 필터링 배포, (2) 탈옥 시도 패턴 모니터링(비정상 표현, 역할 수행 프롬프트, 인코딩된 지시사항), (3) 엔터프라이즈 환경에서 오픈 가중치 모델에 대한 접근 제한, (4) 보안 분석을 위한 모든 LLM 쿼리 로깅, (5) 모델 기능에 최소 권한 원칙 적용(기술적 사용 사례가 아닌 경우 코드 실행, 웹 접근 비활성화). 플로리다 AG는 ChatGPT 상호작용과 연관된 FSU 총격 사건 이후 OpenAI에 대한 형사 수사를 확대했습니다.