정의
AI 모델이 해로운, 편향된 또는 정책 위반 결과물을 생성하는 것을 방지하는 기본 제공 안전 메커니즘 및 행동 제약. Guardrail은 일반적으로 프롬프트 필터링, 출력 검증 및 행동 경계를 포함합니다.
왜 중요한가
완전히 파괴할 수 없는 guardrail은 없습니다. 연구에 따르면 대적 공격에 대해 보편적으로 견고한 유한한 guardrail 세트는 존재하지 않는다는 것이 수학적으로 입증되었습니다. 이는 guardrail이 일회성 해결책으로 취급되지 않고 지속적으로 업데이트되고 계층화되어야 함을 의미합니다.