Definisi
Mekanisme keselamatan bawaan dan batasan perilaku yang mencegah model AI menghasilkan keluaran yang berbahaya, bias, atau melanggar kebijakan. Guardrail biasanya mencakup penyaringan prompt, validasi keluaran, dan batasan perilaku.
Mengapa penting
Tidak ada guardrail yang tidak dapat ditembus. Penelitian telah menunjukkan secara matematis bahwa tidak ada rangkaian guardrail yang terbatas yang universal kuat terhadap serangan adversarial. Ini berarti guardrail harus terus diperbarui dan berlapis, bukan diperlakukan sebagai perbaikan sekali jadi.