"Menghapus Konsep yang Tidak Diinginkan dalam Model Difusi dengan Pelestarian Adversarial" (NeurIPS 2024).
[? Kertas] [? Halaman Proyek] [? Poster] [ Slide]
Hubungi: [email protected]
(Steker tak tahu malu?) Makalah kami yang lain tentang Penghapusan/Pembatalan Konsep:
Target Fantastis untuk Penghapusan Konsep dalam Model Difusi dan Di Mana Menemukannya ,
Tuan-Anh Bui, Trang Vu, Long Vuong, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
Sedang Ditinjau (Dropbox)
Menghapus Konsep yang Tidak Diinginkan dalam Model Difusi dengan Pelestarian Adversarial ,
Tuan-Anh Bui, Long Vuong, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
NeurIPS 2024 (arXiv 2410.15618)
Menghapus Konsep yang Tidak Diinginkan dalam Model Generatif Text-to-Image dengan Perintah yang Dapat Dipelajari ,
Tuan-Anh Bui, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
Pracetak (arXiv 2403.12326)
Model difusi unggul dalam menghasilkan konten yang mencolok secara visual dari teks namun dapat secara tidak sengaja menghasilkan konten yang tidak diinginkan atau berbahaya ketika dilatih pada data internet tanpa filter. Solusi praktisnya adalah dengan menghapus konsep target dari model secara selektif, namun hal ini dapat berdampak pada konsep lainnya. Pendekatan sebelumnya telah mencoba untuk menyeimbangkan hal ini dengan memperkenalkan istilah kerugian untuk menjaga konten netral atau istilah regularisasi untuk meminimalkan perubahan dalam parameter model, namun penyelesaian trade-off ini masih merupakan tantangan. Dalam karya ini, kami mengusulkan untuk mengidentifikasi dan melestarikan konsep yang paling terpengaruh oleh perubahan parameter, yang disebut sebagai konsep adversarial . Pendekatan ini memastikan penghapusan yang stabil dengan dampak minimal pada konsep lainnya. Kami mendemonstrasikan keefektifan metode kami menggunakan model Difusi Stabil, yang menunjukkan bahwa metode ini mengungguli metode penghapusan canggih dalam menghilangkan konten yang tidak diinginkan sekaligus menjaga integritas elemen lain yang tidak terkait.
(1) Menghapus konsep target yang berbeda dari model difusi teks-ke-gambar menyebabkan dampak yang berbeda-beda pada konsep lainnya. Misalnya, menghilangkan 'ketelanjangan' secara signifikan berdampak pada konsep terkait seperti 'perempuan' dan 'laki-laki' namun berdampak minimal pada konsep yang tidak terkait seperti 'truk sampah'. (2) Konsep netral terletak di tengah spektrum sensitivitas, yang menunjukkan bahwa konsep tersebut tidak cukup mewakili kemampuan model untuk dipertahankan. (3) Selain itu, pilihan konsep yang akan dipertahankan selama penghapusan berdampak signifikan pada kemampuan generatif model; mengandalkan konsep netral, seperti pada karya sebelumnya, bukanlah solusi optimal. (4) Hal ini menyoroti perlunya metode adaptif untuk mengidentifikasi dan melestarikan konsep paling sensitif terkait dengan konsep target yang dihapus, daripada mengandalkan konsep netral/generik yang tetap.
cd Adversarial-Erasing
wget https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt
mkdir models/erase
mv sd-v1-4-full-ema.ckpt models/erase/
wget https://huggingface.co/CompVis/stable-diffusion-v1-4/blob/main/unet/config.json
mv config.json models/erase/
Persyaratan:
pip install omegaconf
pip install pytorch-lightning==1.6.5
pip install taming-transformers-rom1504
pip install kornia==0.5.11
pip install git+https://github.com/openai/CLIP.git
pip install diffusers==0.21.4
pip install -U transformers
pip install --upgrade nudenet
pip install lpips
Kami menyediakan skrip pelatihan dan evaluasi untuk eksperimen di makalah dalam file bash berikut.
Untuk menghasilkan hasil pada Tabel 1 makalah (yaitu, Menghapus konsep terkait objek), jalankan perintah berikut:
bash run_imagenette.sh
Untuk menghasilkan hasil pada Tabel 2 makalah (yaitu, Menghapus konsep ketelanjangan), jalankan perintah berikut:
bash run_nudity.sh
Untuk menghasilkan hasil pada Tabel 3 makalah (yaitu, Menghapus Konsep Artistik), jalankan perintah berikut:
bash run_artist.sh
Untuk menghasilkan Gambar 1 dan Gambar 2 makalah (yaitu, Analisis dampak penghapusan konsep target)
bash run_abl_preserve.sh
Daftar petunjuk yang digunakan dalam makalah dapat ditemukan di folder data
, antara lain:
english_3000.csv
: Daftar 3000 kata bahasa Inggrisimagenette.csv
: Daftar kelas imagenette, 500 gambar per kelasunsafe-prompts4703.csv
: Daftar perintah tidak aman I2P, perintah 4703long_nich_art_prompts.csv
: Daftar untuk menghasilkan karya seni dari lima senimansimilarity-nudity_200.csv
ke similarity-nudity-4_200.csv
: Daftar untuk menghasilkan objek tertentu untuk mempelajari dampak penghapusan konsep ketelanjangan dan truk sampahKami menyediakan implementasi metode dan dasar kami:
train_adversarial_gumbel.py
: Implementasi metode kamitrain_esd.py
: Implementasi ESDtrain_uce.py
: Implementasi UCEtrain-esd-preserve.py
: Penerapan ESD dengan preservasi untuk mempelajari dampak penghapusan konsep ketelanjangan dan truk sampah Untuk mengatur konsep yang akan dihapus, modifikasi file utils_exp.py
dan ubah argumen --prompt
di file bash.
Kami menyediakan hasil evaluasi metode dan baseline kami di folder evaluation_folder
dan buku catatan terkait untuk mereproduksi hasilnya di makalah.
Jika Anda merasa karya ini bermanfaat dalam penelitian Anda, mohon pertimbangkan untuk mengutip makalah kami (atau makalah kami yang lain?):
@article { bui2024erasing ,
title = { Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation } ,
author = { Bui, Anh and Vuong, Long and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
booktitle = { NeurIPS } ,
year = { 2024 }
}
@article { bui2024adaptive ,
title = { Fantastic Targets for Concept Erasure in Diffusion Models and Where to Find Them } ,
author = { Bui, Anh and Vu, Trang and Vuong, Long and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { Preprint } ,
year = { 2024 }
}
@article { bui2024removing ,
title = { Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts } ,
author = { Bui, Anh and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { arXiv preprint arXiv:2403.12326 } ,
year = { 2024 }
}
Repositori ini didasarkan pada repositori Menghapus Konsep dari Model Difusi