TELUS Digital GenAI 안전 벤치마크: 테스트된 모든 모델이 악용 가능했으며, 620,000개 이상의 적대적 공격에서 공격 성공률이 1.3%~93%

무슨 일이 있었나

TELUS Digital의 Fuel iX Applied Research 팀은 2026년 5월 26일 GenAI Safety Model Benchmark 2026을 발표했으며, 10개 제공업체의 34개 모델을 620,000개 이상의 적대적 공격 평가와 15개 위험 범주에 걸쳐 다루고 있습니다. 주요 결과: 모든 단일 모델이 악용 가능했음; 공격 성공률은 1.3%(최고)에서 93%(최악)까지 범위였음; 대다수의 프로덕션 인기 모델은 40% 이상의 공격 성공률을 초과했습니다. 세 가지 공격 범주가 최고 성능자를 포함한 테스트된 모든 모델을 뚫었습니다: 개인정보/개인 데이터 악용, 사기/금융 사기, 사이버보안 위협 생성. 소형 모델(≤10B 매개변수)은 86% 시간에 공격에 저항하지 못했습니다. 새로운 '거부하되-계속 지원' 동작이 확인되었습니다 — 모델이 거부하지만 이후 기저의 해로운 주제에 대한 지원을 계속하는 행동 — 별개의 악용 가능한 취약성 클래스로 분류됨.

왜 중요한가

벤치마크는 모델 안전 대화를 '어느 모델이 가장 안전한가'에서 '배포 컨텍스트에서 당신의 특정 공격 표면은 무엇인가'로 전환합니다. 거부하되-계속 지원 결과는 특히 실행 가능합니다: 이러한 패턴을 나타내는 고객 서비스, 재무 자문 또는 규정 준수 워크플로우에 배포된 모델은 실제 안전 경계를 제공하지 않습니다. 중국 출처 모델이 크기를 제어하면 서방 모델과 의미 있는 안전 차이를 보이지 않는다는 결과도 일반적으로 인용되지만 지원되지 않는 소싱 휴리스틱을 제거합니다.

필요한 조치

TELUS Digital 벤치마크의 전체 버전을 다운로드하고 15개 공격 범주에 대해 배포된 모델을 매핑하세요. 일반 안전 평가가 아닌 프로덕션 배포 컨텍스트에서 거부하되-계속 지원 동작을 구체적으로 테스트하세요. 특히 모델 버전을 업그레이드하거나 미세 조정을 변경할 때 일회성 사전 출시 확인보다는 릴리스 게이트로서 지속적인 레드 팀 운영을 수립하세요.