Defense  ·  용어집

AI Guardrails / Safety Controls

AI 모델이 해로운, 편향된 또는 정책 위반 결과물을 생성하는 것을 방지하는 기본 제공 안전 메커니즘 및 행동 제약. Guardrail은 일반적으로 프롬프트 필터링, 출력 검증 및 행동 경계를 포함합니다.
완전히 파괴할 수 없는 guardrail은 없습니다. 연구에 따르면 대적 공격에 대해 보편적으로 견고한 유한한 guardrail 세트는 존재하지 않는다는 것이 수학적으로 입증되었습니다. 이는 guardrail이 일회성 해결책으로 취급되지 않고 지속적으로 업데이트되고 계층화되어야 함을 의미합니다.
참고 자료
NIST: Mathematical Proof of Guardrail Incompleteness
라이브 피드에서 추적 이 개념이 실제 AI 보안·거버넌스 동향에서 어떻게 나타나는지 확인하세요.
피드 열기 →