Attack  ·  Glosarium

Agentjacking

Serangan yang membajak perilaku atau pengambilan keputusan agen AI dengan menyuntikkan instruksi berbahaya ke dalam aliran data yang dikonsumsi agen. Misalnya, laporan kesalahan palsu yang dikirim ke agen pengkodean AI dapat membuat agen tersebut menjalankan kode yang disediakan penyerang, atau notifikasi Sentry berbahaya dapat mengganti alur kerja yang dimaksud oleh agen.
Agentjacking mengeksploitasi kepercayaan implisit yang ditempatkan agen pada sumber data yang mereka konsumsi. Tidak seperti prompt injection (yang menyerang LLM secara langsung), agentjacking mengkorupsi konteks operasional agen, menyebabkannya berperilaku tidak semestinya sambil percaya bahwa agen tersebut mengikuti sinyal kesalahan atau instruksi yang sah.
Referensi
MITRE ATLAS — Adversarial Threat Landscape for AI SystemsOWASP LLM Top 10
Pantau di umpan langsung Lihat bagaimana hal ini terwujud dalam perkembangan keamanan dan tata kelola AI nyata.
Buka umpan →