Guardrails — AI Security Glossary

정의

AI 모델 주변에 구축된 안전 필터 및 규칙으로, 해롭거나 주제를 벗어나거나 정책을 위반하는 결과물을 생성하지 못하도록 방지합니다. 가드레일은 사용자가 보낸 내용, AI가 말하려는 내용 또는 둘 다를 확인할 수 있습니다. AI 제공자, AI를 배포하는 회사 또는 둘이 함께 협력하여 구축할 수 있습니다.

왜 중요한가

가드레일은 능력 있는 AI와 오용 사이의 주요 방어선이지만, 연구에 따르면 유한한 가드레일 집합이 깨질 수 없다는 것은 입증되지 않았습니다. 새로운 공격이 나타날 때마다 지속적으로 업데이트되어야 하며, 역설적이게도 매우 정교한 가드레일 자체도 서비스 거부 공격에서 무기화될 수 있습니다.