BadBone — 프롬프트 학습 커스터마이제이션 이후에만 활성화되는 휴면 AI 모델 백도어, 공개된 6가지 방어 우회 (arXiv 2605.31246)

기술 설명

연구원들이 BadBone을 발표했으며, 이는 이중 수준 최적화를 사용하여 백본 모델(예: ViT, CLIP)에 악의적 동작을 심는 백도어 공격입니다. 이 백도어는 두 가지 조건의 동시 활성화가 필요합니다: 피해자가 프롬프트 학습을 사용하여 모델을 적응시켜야 하고, 특정 트리거가 입력에 나타나야 합니다. 두 조건이 모두 없으면 독성 모델은 정상 모델과 행동학적으로 구별되지 않습니다(공격 성공률 0.10%). 프롬프트 학습 커스터마이제이션이 완료되고 트리거가 나타나면 공격 성공률은 99%에 가까워집니다. Neural Cleanse, ABS, MNTD, NAD, CLP, D-BR 등 공개된 6가지 방어는 커스터마이제이션 전(휴면) 상태의 모델을 테스트하기 때문에 백도어를 안정적으로 탐지하지 못했습니다. 공격자는 피해자의 훈련 데이터가 필요하지 않으며, 유사한 콘텐츠를 가진 대체 데이터셋으로 충분합니다.

공격 경로

공격자가 공개 저장소(예: HuggingFace Hub)를 통해 독성 백본 모델을 배포합니다. 피해자가 다운로드하고 표준 보안 검사를 통과하며, 이는 정상 결과를 반환합니다. 피해자가 다운스트림 작업을 위해 프롬프트 학습 커스터마이제이션을 수행합니다. 백도어가 활성화되고 모든 트리거 포함 입력을 공격자가 선택한 클래스로 약 99% 성공률로 잘못 분류합니다.

영향받는 시스템

확인되지 않은 저장소에서 사전 훈련된 백본 모델(ResNet, BiT-M-RN50, ViT, CLIP)을 사용하고 컴퓨터 비전 또는 NLP의 다운스트림 작업을 위해 프롬프트 학습을 통해 적응시키는 모든 조직. 공개 파운데이션 모델을 다운로드하는 상용 AI 제품 팀 및 내부 AI 워크플로우에서 특히 높은 위험입니다.

완화 방안

체인-오브-커스터디 문서화가 있는 검증된 출처 추적 모델 소스만 사용합니다. 프로덕션 배포 전에 모든 프롬프트 학습 커스터마이제이션 단계 후 격리된 환경에서 백본 모델을 격리 및 테스트합니다. 교차 작업 행동 이상 분석을 구현합니다(모델은 여러 다운스트림 작업에서 갑자기 트리거 포함 입력을 잘못 분류해서는 안 됨). 참고: 연구에 따르면 기존 방어는 불충분합니다 — 모델 출처를 스캔 시간 제어가 아닌 공급망 제어로 취급하세요. 연구 코드는 방어 연구를 위해 https://github.com/TrustAIRLab/BadBone에서 공개적으로 사용 가능합니다.