定义 内置的安全机制和行为约束,防止AI模型产生有害、有偏见或违反政策的输出。护栏通常包括提示词过滤、输出验证和行为边界。 影响分析没有护栏是无法突破的。研究已经从数学上证明,不存在任何有限的护栏集合能够对抗所有对抗性攻击。这意味着护栏必须持续更新和分层,而不能被视为一次性的解决方案。