Position: AI Security Policy Should Target Systems, Not Models

何が起きたか

複数の機関による研究チームがプレプリント(arXiv:2605.09504、ピアレビュー未実施)を発表し、AI セキュリティポリシーは個別のフロンティアモデルへのアクセス制限から、システムレベルの機能評価へと注意を向け直すべきだと主張しています。この論文は2つの実験を提示しています:(1)5つの12億パラメータモデルのスワームが GPT-4o に対するジェイルブレイク攻撃で 45.8% の有効害率を達成し、49件の重大度の高い侵害を生成し、(2)同じモデルが脆弱な C アプリケーションに対して結合されたソースコード分析とバイナリファジングを実行し、9つの植え込まれた CWE に対して 9 of 9 の脆弱性(100% リコール)を正規表現パターン検出と AddressSanitizer ベースのクラッシュ分類でスキャフォルドされた場合、消費者向け MacBook で約4分で復元しました。中心的な主張は以下の通りです: 「[モデルアクセス]制限を促す攻撃能力は主にモデルの周囲のスキャフォルドに存在し、コモディティハードウェア上のオープンウェイトモデルで再現可能である。」

なぜ重要か

攻撃能力がオープンウェイトモデルとコモディティハードウェアを使用して事実上ゼロコストで再現可能である場合、個別のフロンティアモデルへのアクセス制限はほとんど防御価値を提供しません。これは Anthropic の Mythos Preview のような制限されたリリースの根拠に疑問を呈し、AI セキュリティポリシーはモデルアクセスだけでなく、システムアーキテクチャ、スキャフォルディング技術、デプロイメントコンテキストに焦点を当てるべきことを示唆しています。プレプリント、ピアレビュー未実施 — 調査結果は予備的ですがポリシー関連として扱ってください。

必要な対応

CISOs および AI セキュリティリーダーは、フロンティアモデルまたはオープンウェイトモデルのいずれを使用するかに関わらず、Q3までにスキャフォルドベースの攻撃ベクトルに対する内部セキュリティ態勢をレビューする必要があります。