Defense  ·  Glosarium

AI Guardrails / Safety Controls

Mekanisme keselamatan bawaan dan batasan perilaku yang mencegah model AI menghasilkan keluaran yang berbahaya, bias, atau melanggar kebijakan. Guardrail biasanya mencakup penyaringan prompt, validasi keluaran, dan batasan perilaku.
Tidak ada guardrail yang tidak dapat ditembus. Penelitian telah menunjukkan secara matematis bahwa tidak ada rangkaian guardrail yang terbatas yang universal kuat terhadap serangan adversarial. Ini berarti guardrail harus terus diperbarui dan berlapis, bukan diperlakukan sebagai perbaikan sekali jadi.
Referensi
NIST: Mathematical Proof of Guardrail Incompleteness
Pantau di umpan langsung Lihat bagaimana hal ini terwujud dalam perkembangan keamanan dan tata kelola AI nyata.
Buka umpan →