技術的な説明
Trend Micro研究者は「Sockpuppeting」を開示しました。これはAPIアシスタントプリフィル機能を悪用するシングルラインのコードを使用して11大規模LLMのセーフティガードレールをバイパスするジェイルブレイク技術です。機能的なマルウェアコードと機密システムプロンプトの抽出に成功しました。
攻撃経路
標準APIプリフィル機能を介したアシスタントロールメッセージへの偽の受け入れの注入。禁止された出力を継続するというモデルの自己一貫性傾向を悪用します。APIアシスタントプリフィルをサポートするAPIアクセスのみが必要です。モデルウェイト、最適化、または専門的なツールは不要です。
影響を受けるシステム
GPT-4o、GPT-4o-mini、Claude 4 Sonnet、Gemini 2.5 Flash(最も影響を受けやすく15.7% ASR)、および他の7つの主要LLM。3つのモデルはAPIレイヤーでブロックされました。
緩和策
APIレイヤーでアシスタントロールメッセージをブロックするメッセージオーダリング検証を実装します。既知の攻撃パターンに対する出力フィルタリングを適用します。異常なプリフィルパターンについてAPIの使用状況を監視します。