Attack  ·  Glosarium

System Prompt Injection / Override

Serangan di mana penyerang mengganti atau memodifikasi instruksi inti (system prompt) yang mendefinisikan perilaku, tujuan, dan batasan agen AI. Setelah system prompt ditimpa, agen mengikuti instruksi penyerang alih-alih instruksi operator yang sah.
System prompt adalah otoritas yang memberitahu agen tentang identitasnya, apa yang dapat dilakukan, dan aturan apa yang harus diikuti. Jika penyerang dapat menimpanya, mereka memiliki kontrol penuh atas perilaku agen terlepas dari pertahanan lainnya.
Pantau di umpan langsung Lihat bagaimana hal ini terwujud dalam perkembangan keamanan dan tata kelola AI nyata.
Buka umpan →