Attack  ·  用語集

Prompt injection

悪意のある指示がテキストに隠されており、AIがそのテキストを読む際(ドキュメント、メール、ウェブページなど)にトリックを受け、元の指示を無視して攻撃者が望むことを代わりに実行させる攻撃。CEOからのメモを偽造して従業員のインボックスに忍び込ませるようなAIと同等のものと考えてください。AIはオペレーターからの正当な指示と攻撃者からの偽造指示を確実に区別することができません。
顧客メール、ウェブページ、アップロードされたドキュメントなど、外部コンテンツを読んだり要約したりするAIはすべて潜在的な標的です。攻撃が成功すると、AIは機密データを漏らしたり、不正な行動を実行したり、虚偽情報を拡散したりする可能性があります。すべてはユーザーまたはオペレーターが気付かないうちに起こります。
参考資料
OWASP Top 10 for LLM Applications — LLM01: Prompt InjectionNIST CSRC Glossary: Prompt Injection
ライブフィードで追跡 この概念が実際のAIセキュリティ・ガバナンスの動向でどう現れるかを確認。
フィードを開く →