定義
AI システムに悪い振る舞いをさせようとする専門チーム(内部または外部)を置く慣行:有害なコンテンツを生成する、プライベートデータをリークする、操作される、または安全上重要な方法で失敗するなど。サイバーセキュリティ分野の倫理的ハッキングの慣行を反映していますが、AI システムに特化して適応されています。
なぜ重要か
標準的なソフトウェアテストは AI 固有の障害モードをキャッチできません。デプロイ前のレッドチーミングは、組織が自社の AI がどのように悪用される可能性があるかを発見する主な方法であり、規制当局はそれが実施されたという証拠をますます期待しています。