脆弱性  ·  2026-04-14

大規模推論モデルが自律型攻撃者として97%のジェイルブレイク成功率を達成

脆弱性High 影響度Not applicable (alignment/capability risk)
Nature Communicationsの研究では、4つの推論モデル(DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini、Qwen3 235B)を9つのターゲットに対する自律型攻撃者としてテストし、97.14%のジェイルブレイク成功率を発見しました。これにより、ジェイルブレイキングは専門家の技術から安価でスケーラブルな攻撃に変わりました。
推論モデルがターゲットの応答に基づいてジェイルブレイクプロンプトを生成および反復する自律型マルチステッププロンプトエンジニアリング。
すべてのデプロイ済みLLM。オープンウェイトモデルのエンタープライズデプロイメントはリスクが増加しています。
攻撃者のフィードバックループを妨害するための虚偽の応答を注入するプロアクティブディフェンス(例えば、ProAct)。LLMソルティング。評価用のジェイルブレイク蒸留。フロンティア推論モデルが攻撃者として転用されるのを防止するためのアラインメント作業。
出典
Nature Communications
ライブフィードで見る AIセキュリティとガバナンスの関連情報をさらに見る — 毎朝更新。
フィードを開く →