Definisi
Serangan yang membajak perilaku atau pengambilan keputusan agen AI dengan menyuntikkan instruksi berbahaya ke dalam aliran data yang dikonsumsi agen. Misalnya, laporan kesalahan palsu yang dikirim ke agen pengkodean AI dapat membuat agen tersebut menjalankan kode yang disediakan penyerang, atau notifikasi Sentry berbahaya dapat mengganti alur kerja yang dimaksud oleh agen.
Mengapa penting
Agentjacking mengeksploitasi kepercayaan implisit yang ditempatkan agen pada sumber data yang mereka konsumsi. Tidak seperti prompt injection (yang menyerang LLM secara langsung), agentjacking mengkorupsi konteks operasional agen, menyebabkannya berperilaku tidak semestinya sambil percaya bahwa agen tersebut mengikuti sinyal kesalahan atau instruksi yang sah.