Attack  ·  术语库

System Prompt Injection / Override

一种攻击方式,攻击者替换或修改定义AI代理行为、目标和约束的核心指令(系统提示)。一旦系统提示被覆盖,代理将遵循攻击者的指令,而不是合法操作员的指令。
系统提示是告诉代理它是什么、它能做什么以及它必须遵循什么规则的权威。如果攻击者能够覆盖它,他们就拥有对代理行为的完全控制权,无论其他防御措施如何。
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →