취약점  ·  2026-04-14

대규모 추론 모델이 자율 공격자로서 97% 탈옥 성공률 달성

취약점High 영향도Not applicable (alignment/capability risk)
Nature Communications 연구는 4개의 추론 모델(DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B)을 9개의 대상에 대한 자율 공격자로 테스트하여 97.14%의 탈옥 성공률을 발견했습니다. 이는 탈옥을 전문가의 기술에서 저렴하고 확장 가능한 공격으로 전환합니다.
추론 모델이 대상 응답에 기반하여 탈옥 프롬프트를 생성하고 반복하는 자율 다중 단계 프롬프트 엔지니어링.
배포된 모든 LLM; 오픈 가중치 모델의 엔터프라이즈 배포는 높은 위험에 직면합니다.
공격자 피드백 루프를 방해하기 위해 가짜 응답을 주입하는 사전 방어(예: ProAct); LLM salting; 평가를 위한 탈옥 증류; 프론티어 추론 모델이 공격자로 전용되는 것을 방지하기 위한 정렬 작업.
출처
Nature Communications
라이브 피드에서 보기 AI 보안 및 거버넌스 관련 소식을 더 살펴보세요 — 매일 아침 업데이트.
피드 열기 →