定义 一种攻击方式,攻击者替换或修改定义AI代理行为、目标和约束的核心指令(系统提示)。一旦系统提示被覆盖,代理将遵循攻击者的指令,而不是合法操作员的指令。 影响分析系统提示是告诉代理它是什么、它能做什么以及它必须遵循什么规则的权威。如果攻击者能够覆盖它,他们就拥有对代理行为的完全控制权,无论其他防御措施如何。