BadBone — Backdoor Model AI Dorman yang Diaktifkan Hanya Setelah Kustomisasi Prompt-Learning, Menghindari Enam Pertahanan Terpublikasi (arXiv 2605.31246)

Penjelasan teknis

Para peneliti menerbitkan BadBone, serangan backdoor yang menanamkan perilaku berbahaya ke dalam model backbone (misalnya ViT, CLIP) menggunakan optimisasi bi-level. Backdoor memerlukan ko-aktivasi dua kondisi: korban harus mengadaptasi model menggunakan prompt learning, dan trigger spesifik harus muncul dalam input. Tanpa kedua kondisi, model yang diracuni tidak dapat dibedakan dari yang bersih (tingkat kesuksesan serangan 0,10%). Setelah kustomisasi prompt-learning selesai dan trigger muncul, kesuksesan serangan mendekati 99%. Enam pertahanan terpublikasi — Neural Cleanse, ABS, MNTD, NAD, CLP, D-BR — gagal mendeteksi backdoor secara andal karena menguji model dalam keadaan pra-kustomisasi (dorman). Penyerang tidak memerlukan data pelatihan korban; dataset pengganti dengan konten serupa sudah cukup.

Vektor serangan

Penyerang mendistribusikan model backbone yang diracuni melalui repositori publik (misalnya HuggingFace Hub). Korban mengunduh dan melewati pemeriksaan keamanan standar, yang mengembalikan hasil bersih. Korban melakukan kustomisasi prompt-learning untuk tugas hilir mereka. Backdoor diaktifkan dan salah mengklasifikasikan semua input yang memiliki trigger ke kelas pilihan penyerang pada tingkat kesuksesan ~99%.

Sistem yang terdampak

Organisasi apa pun yang menggunakan model backbone yang telah dilatih sebelumnya (ResNet, BiT-M-RN50, ViT, CLIP) dari repositori yang tidak diverifikasi dan mengadaptasinya melalui prompt learning untuk tugas hilir dalam visi komputer atau NLP. Risiko sangat tinggi pada tim produk AI komersial dan alur kerja AI internal yang mengunduh model fondasi publik.

Mitigasi

Gunakan hanya sumber model terverifikasi, terpantau asal-usulnya dengan dokumentasi chain-of-custody; karantina dan uji model backbone di lingkungan terisolasi setelah langkah kustomisasi prompt-learning apa pun sebelum penerapan produksi; terapkan analisis anomali perilaku lintas tugas (model tidak boleh tiba-tiba salah mengklasifikasikan input yang memiliki trigger di berbagai tugas hilir). Catatan: pertahanan yang ada tidak cukup menurut penelitian — perlakukan provenance model sebagai kontrol rantai pasokan, bukan kontrol waktu pemindaian. Kode penelitian tersedia untuk umum di https://github.com/TrustAIRLab/BadBone untuk penelitian defensif.