定義 AIモデルが有害、偏見のある、またはポリシー違反の出力を生成するのを防ぐ組み込まれた安全メカニズムと動作制約。ガードレールは通常、プロンプトフィルタリング、出力検証、および動作境界を含みます。 なぜ重要か完全に破られないガードレールはありません。研究により、敵対的攻撃に対して普遍的に堅牢な有限のガードレールセットは存在しないことが数学的に示されています。これはガードレールを継続的に更新し、段階的に適用する必要があり、一度の修正として扱うべきではないことを意味します。