大規模推論モデルが自律型攻撃者として97%のジェイルブレイク成功率を達成

技術的な説明

Nature Communicationsの研究では、4つの推論モデル(DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini、Qwen3 235B)を9つのターゲットに対する自律型攻撃者としてテストし、97.14%のジェイルブレイク成功率を発見しました。これにより、ジェイルブレイキングは専門家の技術から安価でスケーラブルな攻撃に変わりました。

攻撃経路

推論モデルがターゲットの応答に基づいてジェイルブレイクプロンプトを生成および反復する自律型マルチステッププロンプトエンジニアリング。

影響を受けるシステム

すべてのデプロイ済みLLM。オープンウェイトモデルのエンタープライズデプロイメントはリスクが増加しています。

緩和策

攻撃者のフィードバックループを妨害するための虚偽の応答を注入するプロアクティブディフェンス(例えば、ProAct)。LLMソルティング。評価用のジェイルブレイク蒸留。フロンティア推論モデルが攻撃者として転用されるのを防止するためのアラインメント作業。