Koushik Srivatsan Fahad Shamshad Muzammal Naseer Karthik Nandakumar
Universitas Kecerdasan Buatan Mohamed bin Zayed (MBZUAI), UEA .
Pesatnya perkembangan model pembuatan teks-ke-gambar (T2IG) berskala besar telah menimbulkan kekhawatiran tentang potensi penyalahgunaan model tersebut dalam menghasilkan konten berbahaya. Meskipun banyak metode telah diusulkan untuk menghapus konsep yang tidak diinginkan dari model T2IG, metode tersebut hanya memberikan rasa aman yang salah, karena penelitian terbaru menunjukkan bahwa model yang terhapus konsep (CEM) dapat dengan mudah ditipu untuk menghasilkan konsep yang terhapus melalui serangan permusuhan. Masalah penghapusan konsep yang sangat kuat tanpa penurunan yang signifikan terhadap utilitas model (kemampuan untuk menghasilkan konsep yang baik) masih menjadi tantangan yang belum terselesaikan, terutama dalam situasi white-box di mana musuh memiliki akses ke CEM. Untuk mengatasi kesenjangan ini, kami mengusulkan pendekatan yang disebut STEREO yang melibatkan dua tahap berbeda. Tahap pertama Mencari Sepenuhnya Cukup ( STE ) untuk permintaan adversarial yang kuat dan beragam yang dapat meregenerasi konsep yang terhapus dari CEM, dengan memanfaatkan prinsip optimasi yang kuat dari pelatihan adversarial. Pada tahap kedua R obustly E rase O nce ( REO ), kami memperkenalkan tujuan komposisi berbasis konsep jangkar untuk menghapus konsep target secara kuat sekaligus, sambil mencoba meminimalkan degradasi pada utilitas model. Dengan membandingkan pendekatan STEREO yang diusulkan dengan empat metode penghapusan konsep yang canggih dalam tiga serangan yang merugikan, kami menunjukkan kemampuannya untuk mencapai trade-off ketahanan vs. utilitas yang lebih baik.
Model difusi skala besar untuk pembuatan teks-ke-gambar rentan terhadap serangan permusuhan yang dapat memunculkan kembali konsep-konsep berbahaya meskipun ada upaya penghapusan. Kami memperkenalkan STEREO , sebuah pendekatan tangguh yang dirancang untuk mencegah regenerasi ini sekaligus menjaga kemampuan model untuk menghasilkan konten yang tidak berbahaya.
Ikhtisar STEREO . Kami mengusulkan kerangka kerja dua tahap baru untuk menghapus konsep yang sangat kuat dari model pembuatan teks-ke-gambar yang telah dilatih sebelumnya tanpa secara signifikan mempengaruhi kegunaan konsep-konsep yang tidak berbahaya.
Tahap 1 (atas) : Pencarian Cukup Menyeluruh (STE) mengikuti kerangka pengoptimalan yang kuat dari Pelatihan Adversarial dan merumuskan penghapusan konsep sebagai masalah pengoptimalan min-maks, untuk menemukan petunjuk permusuhan yang kuat yang dapat membuat ulang konsep target dari model yang dihapus. Perhatikan bahwa inti kebaruan dari pendekatan kami terletak pada kenyataan bahwa kami menggunakan AT bukan sebagai solusi akhir, namun hanya sebagai langkah perantara untuk mencari secara menyeluruh pemicu permusuhan yang kuat.
Tahap 2 (bawah) : Hapus Secara Kuat Setelah menyempurnakan model menggunakan konsep jangkar dan serangkaian petunjuk permusuhan yang kuat dari Tahap 1 melalui tujuan komposisi, mempertahankan generasi konsep-konsep yang tidak berbahaya dengan fidelitas tinggi sambil menghapus konsep target dengan kuat.
Jika menurut Anda karya kami dan repositori ini bermanfaat, mohon pertimbangkan untuk memberi bintang pada repo kami dan mengutip makalah kami sebagai berikut:
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
Jika Anda mempunyai pertanyaan, silakan buat masalah pada repositori ini atau hubungi di [email protected].
Kode kami dibangun di atas repositori ESD. Kami berterima kasih kepada penulis karena telah merilis kode mereka.