"การลบแนวคิดที่ไม่พึงประสงค์ในแบบจำลองการแพร่กระจายด้วยการอนุรักษ์ฝ่ายตรงข้าม" (NeurIPS 2024)
- กระดาษ] [? หน้าโครงการ] [? โปสเตอร์] [ สไลด์]
ติดต่อ: [email protected]
(ปลั๊กไร้ยางอาย ?) เอกสารอื่นๆ ของเราเกี่ยวกับการลบ/เลิกเรียนรู้แนวคิด:
เป้าหมายที่ยอดเยี่ยมสำหรับการลบแนวคิดในแบบจำลองการแพร่กระจายและตำแหน่งที่จะค้นหา
ตวนอันห์บุย, ตรังวู, ลองเวือง, จุงเล, พอล มองตากิว, ทามาส อับราฮัม, ดินห์พุง
อยู่ระหว่างตรวจสอบ (Dropbox)
การลบแนวคิดที่ไม่พึงประสงค์ในแบบจำลองการแพร่กระจายด้วยการอนุรักษ์ฝ่ายตรงข้าม
Tuan-Anh Bui, Long Vuong, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
NeurIPS 2024 (arXiv 2410.15618)
การลบแนวคิดที่ไม่พึงประสงค์ในโมเดลการสร้างข้อความเป็นรูปภาพด้วยพร้อมท์ที่เรียนรู้ได้
ตวนแอง บุย, คานห์โดน, จุง เล, พอล มองตากิว, ทามาส อับราฮัม, ดินห์พุง
พิมพ์ล่วงหน้า (arXiv 2403.12326)
โมเดลการแพร่กระจายเป็นเลิศในการสร้างเนื้อหาที่สะดุดตาจากข้อความ แต่สามารถสร้างเนื้อหาที่ไม่พึงประสงค์หรือเป็นอันตรายโดยไม่ได้ตั้งใจเมื่อฝึกกับข้อมูลอินเทอร์เน็ตที่ไม่มีการกรอง วิธีแก้ปัญหาในทางปฏิบัติคือการเลือกเอาแนวคิดเป้าหมายออกจากแบบจำลอง แต่อาจส่งผลกระทบต่อแนวคิดที่เหลือ แนวทางก่อนหน้านี้ได้พยายามสร้างสมดุลนี้ด้วยการใช้เงื่อนไขการสูญเสียเพื่อรักษาเนื้อหาที่เป็นกลางหรือเงื่อนไขการทำให้เป็นมาตรฐานเพื่อลดการเปลี่ยนแปลงในพารามิเตอร์ของโมเดล แต่การแก้ปัญหาการแลกเปลี่ยนนี้ยังคงเป็นเรื่องที่ท้าทาย ในงานนี้ เราเสนอให้ระบุและรักษาแนวคิดที่ได้รับผลกระทบมากที่สุดจากการเปลี่ยนแปลงพารามิเตอร์ ซึ่งเรียกว่า แนวคิดที่เป็นปฏิปักษ์ วิธีการนี้ทำให้มั่นใจได้ว่าการลบจะมีเสถียรภาพโดยมีผลกระทบน้อยที่สุดต่อแนวคิดอื่นๆ เราสาธิตประสิทธิผลของวิธีการของเราโดยใช้แบบจำลอง Stable Diffusion ซึ่งแสดงให้เห็นว่ามีประสิทธิภาพเหนือกว่าวิธีการลบที่ทันสมัยในการกำจัดเนื้อหาที่ไม่ต้องการ ในขณะเดียวกันก็รักษาความสมบูรณ์ขององค์ประกอบอื่นๆ ที่ไม่เกี่ยวข้อง
(1) การลบแนวคิดเป้าหมายที่แตกต่างจากโมเดลการแพร่กระจายข้อความเป็นรูปภาพ ทำให้เกิดผลกระทบที่แตกต่างกันในแนวคิดที่เหลือ ตัวอย่างเช่น การนำ "ภาพเปลือย" ออกจะส่งผลต่อแนวคิดที่เกี่ยวข้อง เช่น "ผู้หญิง" และ "ผู้ชาย" อย่างมีนัยสำคัญ แต่มีผลกระทบน้อยที่สุดกับแนวคิดที่ไม่เกี่ยวข้อง เช่น "รถบรรทุกขยะ" (2) แนวคิดที่เป็นกลางอยู่ระหว่างสเปกตรัมความไว ซึ่งบ่งบอกว่าแนวคิดเหล่านี้ไม่ได้แสดงถึงความสามารถของแบบจำลองที่จะเก็บรักษาไว้ได้อย่างเพียงพอ (3) นอกจากนี้ การเลือกแนวคิดที่จะคงไว้ในระหว่างการลบข้อมูลส่งผลกระทบอย่างมีนัยสำคัญต่อความสามารถในการกำเนิดของแบบจำลอง การอาศัยแนวคิดที่เป็นกลางเช่นเดียวกับงานก่อนหน้านี้ไม่ใช่วิธีแก้ปัญหาที่ดีที่สุด (4) สิ่งนี้เน้นย้ำถึงความจำเป็นในวิธีการปรับตัวเพื่อระบุและรักษาแนวคิดที่ละเอียดอ่อนที่สุดที่เกี่ยวข้องกับแนวคิดเป้าหมายที่จะถูกลบทิ้ง แทนที่จะอาศัยแนวคิดที่เป็นกลาง/ทั่วไปที่ตายตัว
cd Adversarial-Erasing
wget https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt
mkdir models/erase
mv sd-v1-4-full-ema.ckpt models/erase/
wget https://huggingface.co/CompVis/stable-diffusion-v1-4/blob/main/unet/config.json
mv config.json models/erase/
ความต้องการ:
pip install omegaconf
pip install pytorch-lightning==1.6.5
pip install taming-transformers-rom1504
pip install kornia==0.5.11
pip install git+https://github.com/openai/CLIP.git
pip install diffusers==0.21.4
pip install -U transformers
pip install --upgrade nudenet
pip install lpips
เราจัดเตรียมสคริปต์การฝึกอบรมและการประเมินผลสำหรับการทดลองในรายงานในไฟล์ bash ต่อไปนี้
หากต้องการสร้างผลลัพธ์ในตารางที่ 1 ของรายงาน (เช่น การลบแนวคิดที่เกี่ยวข้องกับอ็อบเจ็กต์) ให้รันคำสั่งต่อไปนี้:
bash run_imagenette.sh
หากต้องการให้ผลลัพธ์ในตารางที่ 2 ของรายงาน (เช่น แนวคิดการลบภาพเปลือย) ให้รันคำสั่งต่อไปนี้:
bash run_nudity.sh
ในการสร้างผลลัพธ์ในตารางที่ 3 ของรายงาน (เช่น การลบแนวคิดทางศิลปะ) ให้รันคำสั่งต่อไปนี้:
bash run_artist.sh
เพื่อผลิตรูปที่ 1 และรูปที่ 2 ของบทความ (เช่น การวิเคราะห์ผลกระทบของการลบแนวคิดเป้าหมาย)
bash run_abl_preserve.sh
รายการข้อความแจ้งที่ใช้ในรายงานสามารถพบได้ในโฟลเดอร์ data
ได้แก่:
english_3000.csv
: รายการคำศัพท์ภาษาอังกฤษ 3,000 คำimagenette.csv
: รายชื่อคลาส imagenette 500 ภาพต่อคลาสunsafe-prompts4703.csv
: รายการพร้อมท์ที่ไม่ปลอดภัย I2P, 4703 พร้อมท์long_nich_art_prompts.csv
: รายการเพื่อสร้างงานศิลปะจากห้าศิลปินsimilarity-nudity_200.csv
กับ similarity-nudity-4_200.csv
: รายการเพื่อสร้างวัตถุเฉพาะเพื่อศึกษาผลกระทบของการลบภาพเปลือยและแนวคิดเรื่องรถบรรทุกขยะเราจัดให้มีการนำวิธีการและพื้นฐานของเราไปใช้:
train_adversarial_gumbel.py
: การปรับใช้วิธีการของเราtrain_esd.py
: การใช้งาน ESDtrain_uce.py
: การใช้งาน UCEtrain-esd-preserve.py
: การใช้ ESD พร้อมการอนุรักษ์เพื่อศึกษาผลกระทบของการลบภาพเปลือยและแนวคิดเรื่องรถบรรทุกขยะ หากต้องการตั้งค่าแนวคิดที่จะลบ ให้แก้ไขไฟล์ utils_exp.py
และเปลี่ยนอาร์กิวเมนต์ --prompt
ในไฟล์ bash
เราจัดเตรียมผลการประเมินของวิธีการและบรรทัดฐานของเราในโฟลเดอร์ evaluation_folder
และสมุดบันทึกที่เกี่ยวข้องเพื่อสร้างผลลัพธ์ในรายงาน
หากคุณพบว่างานนี้มีประโยชน์ในการวิจัยของคุณ โปรดพิจารณาอ้างอิงรายงานของเรา (หรือเอกสารอื่นๆ ของเรา ?):
@article { bui2024erasing ,
title = { Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation } ,
author = { Bui, Anh and Vuong, Long and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
booktitle = { NeurIPS } ,
year = { 2024 }
}
@article { bui2024adaptive ,
title = { Fantastic Targets for Concept Erasure in Diffusion Models and Where to Find Them } ,
author = { Bui, Anh and Vu, Trang and Vuong, Long and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { Preprint } ,
year = { 2024 }
}
@article { bui2024removing ,
title = { Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts } ,
author = { Bui, Anh and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { arXiv preprint arXiv:2403.12326 } ,
year = { 2024 }
}
พื้นที่เก็บข้อมูลนี้อิงตามแนวคิดการลบพื้นที่เก็บข้อมูลจากแบบจำลองการแพร่กระจาย