"적대적 보존을 통해 확산 모델에서 바람직하지 않은 개념 삭제" (NeurIPS 2024).
[? 종이] [? 프로젝트 페이지] [? 포스터] [ 슬라이드]
연락처: [email protected]
(뻔뻔한 플러그?) 개념 지우기/학습 취소에 관한 다른 논문:
확산 모델의 개념 삭제를 위한 환상적인 목표 및 이를 찾을 수 있는 위치
Tuan-Anh Bui, Trang Vu, Long Vuong, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
검토중(Dropbox)
적대적 보존을 사용하여 확산 모델에서 바람직하지 않은 개념 삭제
Tuan-Anh Bui, Long Vuong, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
NeurIPS 2024(arXiv 2410.15618)
학습 가능한 프롬프트를 사용하여 텍스트-이미지 생성 모델에서 바람직하지 않은 개념 제거
Tuan-Anh Bui, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
사전 인쇄(arXiv 2403.12326)
확산 모델은 텍스트에서 시각적으로 눈에 띄는 콘텐츠를 생성하는 데 탁월하지만 필터링되지 않은 인터넷 데이터를 학습할 때 의도치 않게 바람직하지 않거나 유해한 콘텐츠를 생성할 수 있습니다. 실용적인 해결책은 모델에서 대상 개념을 선택적으로 제거하는 것이지만 이는 나머지 개념에 영향을 미칠 수 있습니다. 이전 접근 방식에서는 중립 콘텐츠를 보존하기 위해 손실 항을 도입하거나 모델 매개변수의 변화를 최소화하기 위해 정규화 항을 도입하여 균형을 맞추려고 노력했지만 이러한 절충안을 해결하는 것은 여전히 어려운 일입니다. 이 작업에서 우리는 매개변수 변경에 의해 가장 큰 영향을 받는 개념, 즉 적대적 개념 을 식별하고 보존할 것을 제안합니다. 이 접근 방식은 다른 개념에 최소한의 영향을 미치면서 안정적인 삭제를 보장합니다. 우리는 Stable Diffusion 모델을 사용하여 우리 방법의 효율성을 입증하며, 관련되지 않은 다른 요소의 무결성을 유지하면서 원치 않는 콘텐츠를 제거하는 데 있어서 최첨단 삭제 방법보다 성능이 우수하다는 것을 보여줍니다.
(1) 텍스트-이미지 확산 모델에서 다양한 대상 개념을 삭제하면 나머지 개념에 다양한 영향을 미칩니다. 예를 들어, '과도한 노출'을 제거하면 '여성', '남성'과 같은 관련 개념에 큰 영향을 미치지만 '쓰레기차'와 같은 관련 없는 개념에는 최소한의 영향을 미칩니다. (2) 중립 개념은 민감도 스펙트럼의 중간에 있으며, 이는 모델의 보존 능력을 적절하게 나타내지 않음을 나타냅니다. (3) 더욱이, 삭제 중에 보존할 개념의 선택은 모델의 생성 능력에 큰 영향을 미칩니다. 이전 작업과 마찬가지로 중립적 개념에 의존하는 것은 최적의 솔루션이 아닙니다. (4) 이는 고정된 중립/일반 개념에 의존하기보다는 삭제되는 대상 개념과 관련된 가장 민감한 개념을 식별하고 보존하기 위한 적응형 방법의 필요성을 강조합니다.
cd Adversarial-Erasing
wget https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt
mkdir models/erase
mv sd-v1-4-full-ema.ckpt models/erase/
wget https://huggingface.co/CompVis/stable-diffusion-v1-4/blob/main/unet/config.json
mv config.json models/erase/
요구사항:
pip install omegaconf
pip install pytorch-lightning==1.6.5
pip install taming-transformers-rom1504
pip install kornia==0.5.11
pip install git+https://github.com/openai/CLIP.git
pip install diffusers==0.21.4
pip install -U transformers
pip install --upgrade nudenet
pip install lpips
우리는 다음 bash 파일에서 논문의 실험에 대한 교육 및 평가 스크립트를 제공합니다.
백서의 표 1에 있는 결과(예: 개체 관련 개념 지우기)를 생성하려면 다음 명령을 실행합니다.
bash run_imagenette.sh
논문의 표 2에 있는 결과(즉, 누드 개념 지우기)를 생성하려면 다음 명령을 실행하십시오.
bash run_nudity.sh
논문의 표 3에 있는 결과(예: 예술적 개념 지우기)를 생성하려면 다음 명령을 실행하십시오.
bash run_artist.sh
논문의 그림 1과 그림 2를 생성합니다. (즉, 대상 개념 삭제의 영향 분석)
bash run_abl_preserve.sh
논문에 사용된 프롬프트 목록은 다음을 포함하여 data
폴더에서 찾을 수 있습니다.
english_3000.csv
: 영어단어 3000개 목록imagenette.csv
: imagenette 클래스 목록, 클래스당 이미지 500개unsafe-prompts4703.csv
: 안전하지 않은 프롬프트 목록 I2P, 4703 프롬프트long_nich_art_prompts.csv
: 5명의 아티스트로부터 예술 작품을 생성하는 목록similarity-nudity_200.csv
~ similarity-nudity-4_200.csv
: 과도한 노출 삭제 및 쓰레기 수거차 개념의 영향을 연구하기 위해 특정 객체를 생성하는 목록우리는 방법과 기준의 구현을 제공합니다.
train_adversarial_gumbel.py
: 방법 구현train_esd.py
: ESD 구현train_uce.py
: UCE 구현train-esd-preserve.py
: 과도한 노출 삭제 및 쓰레기 트럭 개념의 영향을 연구하기 위해 보존과 함께 ESD 구현 삭제할 개념을 설정하려면 utils_exp.py
파일을 수정하고 bash 파일에서 --prompt
인수를 변경하세요.
우리는 evaluation_folder
폴더에 우리 방법과 기준선에 대한 평가 결과를 제공하고, 그 결과를 논문에 재현하기 위해 관련 노트북을 제공합니다.
이 작업이 귀하의 연구에 유용하다고 생각되면 우리 논문(또는 다른 논문?)을 인용하는 것을 고려해 보십시오.
@article { bui2024erasing ,
title = { Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation } ,
author = { Bui, Anh and Vuong, Long and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
booktitle = { NeurIPS } ,
year = { 2024 }
}
@article { bui2024adaptive ,
title = { Fantastic Targets for Concept Erasure in Diffusion Models and Where to Find Them } ,
author = { Bui, Anh and Vu, Trang and Vuong, Long and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { Preprint } ,
year = { 2024 }
}
@article { bui2024removing ,
title = { Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts } ,
author = { Bui, Anh and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { arXiv preprint arXiv:2403.12326 } ,
year = { 2024 }
}
이 저장소는 확산 모델에서 개념 지우기 저장소를 기반으로 합니다.