米国の議員がジェイルブレイクされたAIモデルが数秒で詳細な攻撃計画を生成することについて説明を受ける

技術的な説明

DHS National Counterterrorism Innovation, Technology and Education Center (NCITE)とHouse Homeland Security Committeeは、議員たちにジェイルブレイクされた（「abliterated」）AIモデルのデモンストレーションを行い、安全ガードレールの削除により、モデルが3秒以内に段階的な攻撃指示を生成できることを示した。検閲されたモデルが拒否した場合、モデルは誘拐、爆撃、大量傷害事件に関する詳細なガイダンスを提供した。複数の米国および外国モデルがデモンストレーションされ、名前は秘匿された。

攻撃経路

Abliterationを介したジェイルブレイク（拒否メカニズムの無効化）またはプロンプトエンジニアリング（制限されたクエリを密集した学術言語に埋め込む）は、セキュリティレイヤーをバイパスする。脅威アクターは、abliteratedモデルを使用して：（1）詳細な攻撃計画を生成、（2）マルウェアおよびエクスプロイトコードを作成、（3）ソーシャルエンジニアリングキャンペーンを作成、（4）偵察を自動化できる。ロシア関連グループはLLMを不正情報に悪用しており、北京支援のアクターはClaudeを自動化されたサイバー攻撃に兵器化しようと試みた。

影響を受けるシステム

安全ガードレールを備えたすべての主要なLLMはジェイルブレイク技術に対して脆弱である。Abliteratedモデル（公開されているオープンウェイトバリアント）は最高のリスクを呈する。プロバイダー側のセキュリティコントロールのみに依存し、ランタイムフィルタリングなしの企業導入は露出に直面している。

緩和策

多層防御を実装する：（1）モデル層コントロールと別個のランタイムコンテンツフィルタリングをデプロイ、（2）ジェイルブレイク試行パターン（異常な言い回し、ロールプレイングプロンプト、エンコードされた指示）を監視、（3）企業環境でのオープンウェイトモデルへのアクセスを制限、（4）セキュリティ分析のためにすべてのLLMクエリをログに記録、（5）モデル機能に最小権限原則を適用（非技術的ユースケースに対してコード実行、ウェブアクセスを無効化）。フロリダ州司法長官はFSU銃撃事件がChatGPT相互作用に関連しているとしてOpenAIに対する刑事捜査を拡大した。