Guardrails — AI Security Glossary

定義

AIモデルを取り囲むように構築されたセーフティフィルターとルール。有害で、トピックから外れた、またはポリシーに違反する出力の生成を防ぎます。ガードレールはユーザーが送信するもの、AIが発言しようとしているもの、またはその両方をチェックできます。AIプロバイダー、AIを展開している企業、またはその両者が協力して構築できます。

なぜ重要か

ガードレールは、有能なAIと悪用の間の主要な防御線ですが、研究により、ガードレールの有限集合は破られない可能性があることが証明されています。新しい攻撃が出現するにつれて継続的に更新する必要があり、そして逆説的に、非常に高度なガードレールはそれ自体がサービス拒否攻撃で兵器化される可能性があります。