대규모 추론 모델이 자율 공격자로서 97% 탈옥 성공률 달성

기술 설명

Nature Communications 연구는 4개의 추론 모델(DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B)을 9개의 대상에 대한 자율 공격자로 테스트하여 97.14%의 탈옥 성공률을 발견했습니다. 이는 탈옥을 전문가의 기술에서 저렴하고 확장 가능한 공격으로 전환합니다.

공격 경로

추론 모델이 대상 응답에 기반하여 탈옥 프롬프트를 생성하고 반복하는 자율 다중 단계 프롬프트 엔지니어링.

영향받는 시스템

배포된 모든 LLM; 오픈 가중치 모델의 엔터프라이즈 배포는 높은 위험에 직면합니다.

완화 방안

공격자 피드백 루프를 방해하기 위해 가짜 응답을 주입하는 사전 방어(예: ProAct); LLM salting; 평가를 위한 탈옥 증류; 프론티어 추론 모델이 공격자로 전용되는 것을 방지하기 위한 정렬 작업.