Attack  ·  术语库

Agentjacking

通过向AI代理消费的数据流中注入恶意指令来劫持AI代理的行为或决策制定的攻击。例如,发送给AI编码代理的虚假错误报告可能会诱骗它运行攻击者提供的代码,或者恶意的Sentry通知可能会覆盖代理的预期工作流程。
代理劫持利用代理对其消费的数据源的隐性信任。与直接攻击LLM的提示注入不同,代理劫持会破坏代理的操作环境,导致代理在认为自己遵循合法错误信号或指令的情况下出现故障。
参考资料
MITRE ATLAS — Adversarial Threat Landscape for AI SystemsOWASP LLM Top 10
在实时动态中跟踪 了解这一概念在真实 AI 安全与治理事件中的体现。
打开动态 →