Position: AI Security Policy Should Target Systems, Not Models

무슨 일이 있었나

다기관 연구팀이 프리프린트(arXiv:2605.09504, 피어리뷰 미완료)를 발표했으며, AI 보안 정책이 개별 프론티어 모델에 대한 접근 제한에서 시스템 수준의 능력 평가로 주의를 전환해야 한다고 주장합니다. 논문은 두 가지 실험을 제시합니다: (1) 5개의 12억 파라미터 모델 군집이 GPT-4o에 대한 탈옥 공격에서 45.8%의 유효 해악률을 달성하여 49개의 심각도 높음 위반을 생성했고, (2) 동일한 모델들이 9개의 심은 CWE를 가진 취약한 C 애플리케이션에 대해 결합된 소스 코드 분석과 바이너리 퍼징을 수행했으며, 정규표현식 패턴 감지와 AddressSanitizer 기반 충돌 분류로 스캐폴드된 경우 소비자용 MacBook에서 약 4분 내에 9개 중 9개의 취약점(100% 재현율)을 복구했습니다. 중심 주장: "모델 접근 제한을 정당화하는 공격 능력은 주로 모델 주변의 스캐폴드에 있으며 소비자용 하드웨어에서 소규모 오픈웨이트 모델로 재현 가능합니다."

왜 중요한가

공격 능력이 오픈웨이트 모델과 소비자용 하드웨어를 사용하여 사실상 제로 비용으로 재현 가능하다면, 개별 프론티어 모델에 대한 접근 제한은 거의 방어 가치를 제공하지 않습니다. 이는 Anthropic의 Mythos Preview와 같은 제한된 출시의 근거에 의문을 제기하며, AI 보안 정책이 모델 접근만이 아니라 시스템 아키텍처, 스캐폴드 기법, 배포 환경에 초점을 맞춰야 함을 시사합니다. 프리프린트, 피어리뷰 미완료—결과를 예비적이지만 정책 관련성이 있는 것으로 취급하십시오.

필요한 조치

CISO 및 AI 보안 담당자는 프론티어 또는 오픈웨이트 모델 사용 여부와 관계없이 Q3까지 스캐폴드 기반 공격 벡터에 대한 내부 보안 태세를 검토해야 합니다.