脆弱性  ·  2026-04-12

Sockpuppeting: 11大規模LLMに影響を与える普遍的なシングルラインジェイルブレイク

脆弱性High 影響度
Trend Micro研究者は「Sockpuppeting」を開示しました。これはAPIアシスタントプリフィル機能を悪用するシングルラインのコードを使用して11大規模LLMのセーフティガードレールをバイパスするジェイルブレイク技術です。機能的なマルウェアコードと機密システムプロンプトの抽出に成功しました。
標準APIプリフィル機能を介したアシスタントロールメッセージへの偽の受け入れの注入。禁止された出力を継続するというモデルの自己一貫性傾向を悪用します。APIアシスタントプリフィルをサポートするAPIアクセスのみが必要です。モデルウェイト、最適化、または専門的なツールは不要です。
GPT-4o、GPT-4o-mini、Claude 4 Sonnet、Gemini 2.5 Flash(最も影響を受けやすく15.7% ASR)、および他の7つの主要LLM。3つのモデルはAPIレイヤーでブロックされました。
APIレイヤーでアシスタントロールメッセージをブロックするメッセージオーダリング検証を実装します。既知の攻撃パターンに対する出力フィルタリングを適用します。異常なプリフィルパターンについてAPIの使用状況を監視します。
出典
Trend Micro - Sockpuppeting How a Single Line Can Bypass LLM Safety GuardrailsCyberSecurity News - Single Line of Code Can Jailbreak 11 AI ModelsGBHackers - 11 AI Models Vulnerable to One-Line Jailbreak
ライブフィードで見る AIセキュリティとガバナンスの関連情報をさらに見る — 毎朝更新。
フィードを開く →