Attack  ·  用語集

System Prompt Injection / Override

攻撃者がAIエージェントの動作、目標、および制約を定義するコア命令(システムプロンプト)を置き換えたり、修正したりする攻撃。システムプロンプトがオーバーライドされると、エージェントは正当なオペレーターの指示ではなく、攻撃者の指示に従う。
システムプロンプトは、エージェントが何であるか、何ができるか、どのルールに従わなければならないかを伝える権限である。攻撃者がそれをオーバーライドできれば、他の防御に関係なく、エージェントの動作を完全にコントロールすることができる。
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →