Attack  ·  용어집

Agentjacking

AI 에이전트의 동작이나 의사결정을 하이재킹하는 공격으로, 에이전트가 소비하는 데이터 스트림에 악의적인 지시를 주입하는 방식입니다. 예를 들어, AI 코딩 에이전트에 보낸 가짜 오류 보고서는 에이전트를 속여 공격자가 제공한 코드를 실행하게 할 수 있으며, 악의적인 Sentry 알림은 에이전트의 의도된 워크플로우를 무시할 수 있습니다.
Agentjacking은 에이전트가 소비하는 데이터 소스에 대해 갖는 암묵적 신뢰를 악용합니다. LLM을 직접 공격하는 프롬프트 인젝션과 달리, agentjacking은 에이전트의 운영 컨텍스트를 오염시켜 정당한 오류 신호나 지시를 따르고 있다고 믿으면서도 오작동하게 합니다.
참고 자료
MITRE ATLAS — Adversarial Threat Landscape for AI SystemsOWASP LLM Top 10
라이브 피드에서 추적 이 개념이 실제 AI 보안·거버넌스 동향에서 어떻게 나타나는지 확인하세요.
피드 열기 →