기술 설명
Trend Micro 연구원들이 API 어시스턴트 프리필 기능을 악용하는 단일 코드 라인으로 11개 주요 LLM의 안전 보호 장치를 우회하는 탈옥 기법인 'Sockpuppeting'을 공개했습니다. 기능 악성코드와 기밀 시스템 프롬프트를 성공적으로 추출했습니다.
공격 경로
표준 API 프리필 기능을 통해 어시스턴트 역할 메시지에 허위 수락을 주입하여 금지된 출력을 계속하려는 모델의 자기일관성 경향을 악용합니다. 모델 가중치, 최적화 또는 특화된 도구 없이 어시스턴트 프리필을 지원하는 API 액세스만 필요합니다.
영향받는 시스템
GPT-4o, GPT-4o-mini, Claude 4 Sonnet, Gemini 2.5 Flash (15.7% ASR에서 가장 취약) 및 7개의 다른 주요 LLM. 3개 모델은 API 계층에서 차단됩니다.
완화 방안
API 계층에서 어시스턴트 역할 메시지를 차단하는 메시지 순서 검증을 구현합니다. 알려진 공격 패턴에 대한 출력 필터링을 적용합니다. 비정상적인 프리필 패턴에 대해 API 사용을 모니터링합니다.