定義
悪意のある行為者が AI モデルの訓練またはアップデートに使用されるデータを意図的に破損させる、またはランタイムでモデルが参照するナレッジベースに悪質なコンテンツを注入する攻撃。目標は、モデルの動作を不正にさせたり、偏ったアウトプットを生成させたり、後にトリガーできる隠れたバックドアを作成することである。
なぜ重要か
毒性を持つ訓練データはエンドユーザーには見えず、製品アップデートを通じて持続する可能性があります。つまり、侵害されたモデルは展開後も長期間にわたって微妙に間違っているか有害な回答を与える可能性があります。AI パッケージに毒性を与えるサプライチェーン攻撃(Shai-Hulud/Miasma ワームなど)は、これがもはや仮説的ではないことを示しています。