정의
나쁜 의도를 가진 공격자가 AI 모델을 훈련하거나 업데이트하는 데 사용되는 데이터를 의도적으로 손상시키거나, 모델이 런타임에 참조하는 지식 기반에 악성 콘텐츠를 주입하는 공격. 목표는 모델이 잘못되게 작동하도록 만들거나, 편향된 결과를 생성하거나, 나중에 트리거될 수 있는 숨겨진 백도어를 만드는 것입니다.
왜 중요한가
중독된 훈련 데이터는 최종 사용자에게 보이지 않으며 제품 업데이트를 통해 지속될 수 있으므로, 손상된 모델은 배포 후 오랜 시간이 지난 후에도 미묘하게 잘못되거나 해로운 답변을 제공할 수 있습니다. AI 패키지를 중독시키는 공급망 공격(Shai-Hulud/Miasma 웜 같은)은 이것이 더 이상 가설적이지 않음을 보여줍니다.