TELUS Digital GenAI Safety Benchmark: テストされたすべてのモデルが悪用可能であり、620,000以上の敵対的攻撃全体で1.3%から93%の攻撃成功率を記録

何が起きたか

TELUS DigitalのFuel iX Applied Researchチームは、2026年5月26日にGenAI Safety Model Benchmark 2026を公開しました。10のプロバイダーから34のモデルをカバーし、620,000以上の敵対的攻撃評価と15のリスクカテゴリーを対象としています。主な知見：すべてのモデルが悪用可能でした；攻撃成功率は1.3%（最良）から93%（最悪）の範囲でした；本番環境で一般的なモデルの大多数は40%を超える攻撃成功率を記録しました。すべてのテストモデル（トップパフォーマーを含む）を突破した3つの攻撃カテゴリーは：プライバシー/個人データ悪用、詐欺/金融詐欺、サイバーセキュリティ脅威生成です。小規模モデル（≤10Bパラメータ）は86%の時間で攻撃に抵抗できませんでした。新規の「拒否しながら関与する」動作が特定されました — モデルが拒否しながらも、その後、有害なトピックの支援を継続する — 独立した悪用可能な脆弱性クラスとして分類されています。

なぜ重要か

このベンチマークは、モデルセーフティの会話を「どのモデルが最も安全か」から「デプロイメントコンテキストを考慮すると、あなたの特定の攻撃面は何か」へシフトさせます。拒否しながら関与する知見は特に実行可能です：このパターンを示すカスタマーサービス、金融アドバイザリー、またはコンプライアンスワークフローにデプロイされたモデルは、実際のセーフティ境界を提供しません。サイズを管理すると、中国発祥のモデルが西側モデルと意味のあるセーフティの違いを示さないという知見は、一般的に引用されるが根拠のないソーシングヒューリスティックを削除します。

必要な対応

完全なTELUS Digitalベンチマークをダウンロードし、デプロイされたモデルを15の攻撃カテゴリーにマップしてください。汎用セーフティ評価ではなく、本番デプロイメントコンテキストで拒否しながら関与する動作を特にテストしてください。ワンタイムのプリローンチチェックではなく、リリースゲートとして継続的なレッドティーミングを確立してください。特にモデルバージョンをアップグレードするか、ファインチューニングを変更する場合です。