BadBone — プロンプト学習のカスタマイズ後のみ活性化するdormant AIモデルバックドア、公開された6つの防御策を回避（arXiv 2605.31246）

技術的な説明

研究者はBadBoneという、二段階最適化を使用してバックボーンモデル（例：ViT、CLIP）に悪意のある動作を埋め込むバックドア攻撃を発表しました。このバックドアは2つの条件の同時活性化を必要とします。被害者がプロンプト学習を使用してモデルを適応させる必要があり、かつ特定のトリガーが入力に出現する必要があります。両方の条件がない場合、中毒されたモデルはクリーンなモデルと動作的に区別できません（攻撃成功率0.10%）。プロンプト学習のカスタマイズが完了し、トリガーが出現すると、攻撃成功率は99%に近づきます。公開された6つの防御策—Neural Cleanse、ABS、MNTD、NAD、CLP、D-BR—は、カスタマイズ前（dormant）の状態でモデルをテストするため、バックドアを確実に検出できませんでした。攻撃者は被害者の訓練データを必要としません。同様の内容を持つサロゲートデータセットで十分です。

攻撃経路

攻撃者は、中毒されたバックボーンモデルを公開リポジトリ（例：HuggingFace Hub）を通じて配布します。被害者はダウンロードして標準的なセキュリティチェックを実行し、クリーンな結果が返されます。被害者は下流タスク用のプロンプト学習カスタマイズを実行します。バックドアが活性化し、トリガーを含むすべての入力を攻撃者が選択したクラスに約99%の成功率で誤分類します。

影響を受けるシステム

事前訓練されたバックボーンモデル（ResNet、BiT-M-RN50、ViT、CLIP）を未検証のリポジトリから使用し、コンピュータビジョンまたはNLPの下流タスク用にプロンプト学習を通じて適応させるあらゆる組織。公開ファウンデーションモデルをダウンロードする商用AIプロダクトチームと社内AIワークフローでは特に高リスクです。

緩和策

検証済みで由来が追跡可能なモデルソースを、保管の鎖に関するドキュメント付きでのみ使用してください。プロンプト学習カスタマイズの後、本番環境へのデプロイ前に、分離された環境でバックボーンモデルを隔離してテストしてください。タスク横断的な動作異常分析を実装してください（モデルは複数の下流タスク全体でトリガーを含む入力を突然誤分類すべきではありません）。注記：研究によると既存の防御は不十分です—モデルの由来をスキャン時の制御ではなくサプライチェーン制御として扱ってください。防御研究のための研究コードは https://github.com/TrustAIRLab/BadBone で公開されています。