"Borrar conceptos indeseables en modelos de difusión con preservación adversa" (NeurIPS 2024).
[? Papel] [? Página del proyecto] [? Póster] [ Diapositivas]
Contacto: [email protected]
(¿Enchufe descarado?) Nuestros otros artículos sobre borrado/desaprendizaje de conceptos:
Objetivos fantásticos para el borrado de conceptos en modelos de difusión y dónde encontrarlos .
Tuan-Anh Bui, Trang Vu, Long Vuong, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
En revisión (Dropbox)
Borrado de conceptos indeseables en modelos de difusión con preservación adversaria ,
Tuan-Anh Bui, Long Vuong, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
NeurIPS 2024 (arXiv 2410.15618)
Eliminación de conceptos no deseados en modelos generativos de texto a imagen con indicaciones que se pueden aprender .
Tuan-Anh Bui, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
Preimpresión (arXiv 2403.12326)
Los modelos de difusión destacan por generar contenido visualmente impactante a partir de texto, pero pueden producir inadvertidamente contenido no deseado o dañino cuando se entrenan con datos de Internet sin filtrar. Una solución práctica es eliminar selectivamente los conceptos objetivo del modelo, pero esto puede afectar a los conceptos restantes. Enfoques anteriores han intentado equilibrar esto introduciendo un término de pérdida para preservar el contenido neutral o un término de regularización para minimizar los cambios en los parámetros del modelo, pero resolver esta compensación sigue siendo un desafío. En este trabajo, proponemos identificar y preservar los conceptos más afectados por cambios de parámetros, denominados conceptos contradictorios . Este enfoque garantiza un borrado estable con un impacto mínimo en los demás conceptos. Demostramos la eficacia de nuestro método utilizando el modelo de Difusión Estable, demostrando que supera a los métodos de borrado de última generación a la hora de eliminar contenido no deseado y al mismo tiempo mantener la integridad de otros elementos no relacionados.
(1) Borrar diferentes conceptos objetivo de los modelos de difusión de texto a imagen produce diferentes impactos en los conceptos restantes. Por ejemplo, eliminar la "desnudez" afecta significativamente a conceptos relacionados como "mujeres" y "hombres", pero tiene un impacto mínimo en conceptos no relacionados como "camión de basura". (2) Los conceptos neutrales se encuentran en el medio del espectro de sensibilidad, lo que sugiere que no representan adecuadamente la capacidad del modelo para ser preservado. (3) Además, la elección del concepto que se preservará durante el borrado afecta significativamente la capacidad generativa del modelo; confiar en conceptos neutrales, como en trabajos anteriores, no es una solución óptima. (4) Esto resalta la necesidad de métodos adaptativos para identificar y preservar los conceptos más sensibles relacionados con el concepto objetivo que se está borrando, en lugar de depender de conceptos neutros/genéricos fijos.
cd Adversarial-Erasing
wget https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt
mkdir models/erase
mv sd-v1-4-full-ema.ckpt models/erase/
wget https://huggingface.co/CompVis/stable-diffusion-v1-4/blob/main/unet/config.json
mv config.json models/erase/
Requisitos:
pip install omegaconf
pip install pytorch-lightning==1.6.5
pip install taming-transformers-rom1504
pip install kornia==0.5.11
pip install git+https://github.com/openai/CLIP.git
pip install diffusers==0.21.4
pip install -U transformers
pip install --upgrade nudenet
pip install lpips
Proporcionamos scripts de capacitación y evaluación para los experimentos del artículo en los siguientes archivos bash.
Para producir los resultados de la Tabla 1 del artículo (es decir, Borrar conceptos relacionados con objetos), ejecute el siguiente comando:
bash run_imagenette.sh
Para producir los resultados de la Tabla 2 del artículo (es decir, Borrar el concepto de desnudez), ejecute el siguiente comando:
bash run_nudity.sh
Para producir los resultados de la Tabla 3 del artículo (es decir, Borrar conceptos artísticos), ejecute el siguiente comando:
bash run_artist.sh
Producir la Figura 1 y la Figura 2 del artículo (es decir, Análisis del impacto de borrar el concepto objetivo)
bash run_abl_preserve.sh
La lista de indicaciones utilizadas en el artículo se puede encontrar en la carpeta data
, que incluye:
english_3000.csv
: Lista de 3000 palabras en inglésimagenette.csv
: Lista de clases de imagenette, 500 imágenes por claseunsafe-prompts4703.csv
: Lista de mensajes inseguros I2P, mensajes 4703long_nich_art_prompts.csv
: Lista para generar obras artísticas de cinco artistassimilarity-nudity_200.csv
a similarity-nudity-4_200.csv
: Lista para generar objetos específicos para estudiar el impacto de borrar los conceptos de desnudez y camión de basura.Proporcionamos implementación de nuestro método y líneas base:
train_adversarial_gumbel.py
: Implementación de nuestro métodotrain_esd.py
: Implementación de ESDtrain_uce.py
: Implementación de UCEtrain-esd-preserve.py
: Implementación de ESD con preservación para estudiar el impacto de borrar los conceptos de desnudez y camiones de basura Para configurar conceptos para borrar, modifique el archivo utils_exp.py
y cambie el argumento --prompt
en los archivos bash.
Proporcionamos los resultados de la evaluación de nuestro método y líneas de base en la carpeta evaluation_folder
y los cuadernos asociados para reproducir los resultados en el artículo.
Si encuentra útil este trabajo en su investigación, considere citar nuestro artículo (¿u otros artículos nuestros?):
@article { bui2024erasing ,
title = { Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation } ,
author = { Bui, Anh and Vuong, Long and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
booktitle = { NeurIPS } ,
year = { 2024 }
}
@article { bui2024adaptive ,
title = { Fantastic Targets for Concept Erasure in Diffusion Models and Where to Find Them } ,
author = { Bui, Anh and Vu, Trang and Vuong, Long and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { Preprint } ,
year = { 2024 }
}
@article { bui2024removing ,
title = { Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts } ,
author = { Bui, Anh and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { arXiv preprint arXiv:2403.12326 } ,
year = { 2024 }
}
Este repositorio está basado en el repositorio Borrando conceptos de modelos de difusión.