Defense  ·  术语库

AI Guardrails / Safety Controls

内置的安全机制和行为约束,防止AI模型产生有害、有偏见或违反政策的输出。护栏通常包括提示词过滤、输出验证和行为边界。
没有护栏是无法突破的。研究已经从数学上证明,不存在任何有限的护栏集合能够对抗所有对抗性攻击。这意味着护栏必须持续更新和分层,而不能被视为一次性的解决方案。
参考资料
NIST: Mathematical Proof of Guardrail Incompleteness
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →