Defense  ·  用語集

AI Guardrails / Safety Controls

AIモデルが有害、偏見のある、またはポリシー違反の出力を生成するのを防ぐ組み込まれた安全メカニズムと動作制約。ガードレールは通常、プロンプトフィルタリング、出力検証、および動作境界を含みます。
完全に破られないガードレールはありません。研究により、敵対的攻撃に対して普遍的に堅牢な有限のガードレールセットは存在しないことが数学的に示されています。これはガードレールを継続的に更新し、段階的に適用する必要があり、一度の修正として扱うべきではないことを意味します。
参考資料
NIST: Mathematical Proof of Guardrail Incompleteness
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →