«Стирание нежелательных концепций в диффузионных моделях с состязательным сохранением» (NeurIPS 2024).
[? Бумага] [? Страница проекта] [? Плакат] [Слайды]
Контакт: [email protected]
(Бесстыдная вилка?) Другие наши статьи о стирании/отучении концепций:
Фантастические цели для стирания концепций в моделях диффузии и где их найти
Туан-Ань Буй, Транг Ву, Лонг Выонг, Чунг Ле, Поль Монтегю, Тамаш Абрахам, Динь Фунг
На рассмотрении (Dropbox)
Стирание нежелательных концепций в диффузионных моделях с состязательным сохранением ,
Туан-Ань Буй, Лонг Выонг, Кхань Доан, Чунг Ле, Поль Монтегю, Тамаш Абрахам, Динь Фунг
НейрИПС 2024 (arXiv 2410.15618)
Удаление нежелательных концепций в генеративных моделях преобразования текста в изображение с помощью обучаемых подсказок ,
Туан-Ань Буй, Кхань Доан, Чунг Ле, Пол Монтегю, Тамаш Абрахам, Динь Фунг
Препринт (arXiv 2403.12326)
Модели распространения превосходно генерируют визуально привлекательный контент из текста, но могут непреднамеренно создавать нежелательный или вредный контент при обучении на нефильтрованных интернет-данных. Практическое решение — выборочное удаление целевых концепций из модели, но это может повлиять на оставшиеся концепции. Предыдущие подходы пытались сбалансировать это, вводя термин потерь для сохранения нейтрального содержания или термин регуляризации для минимизации изменений в параметрах модели, однако решение этого компромисса остается сложной задачей. В этой работе мы предлагаем идентифицировать и сохранять концепции, на которые больше всего влияют изменения параметров, называемые состязательными концепциями . Такой подход обеспечивает стабильное стирание с минимальным влиянием на другие концепции. Мы демонстрируем эффективность нашего метода с помощью модели стабильной диффузии, показывая, что он превосходит современные методы стирания в удалении нежелательного контента при сохранении целостности других несвязанных элементов.
(1) Стирание различных целевых концепций из моделей диффузии текста в изображение приводит к различным последствиям для остальных концепций. Например, удаление «наготы» существенно влияет на связанные понятия, такие как «женщины» и «мужчины», но оказывает минимальное влияние на несвязанные понятия, такие как «мусоровоз». (2) Нейтральные концепции лежат в середине спектра чувствительности, что позволяет предположить, что они неадекватно отражают способность модели сохраняться. (3) Более того, выбор концепции, которая будет сохранена во время стирания, существенно влияет на генеративные возможности модели; полагаться на нейтральные концепции, как в предыдущей работе, не является оптимальным решением. (4) Это подчеркивает необходимость в адаптивных методах выявления и сохранения наиболее чувствительных концепций, связанных с стираемой целевой концепцией, вместо того, чтобы полагаться на фиксированные нейтральные/общие концепции.
cd Adversarial-Erasing
wget https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt
mkdir models/erase
mv sd-v1-4-full-ema.ckpt models/erase/
wget https://huggingface.co/CompVis/stable-diffusion-v1-4/blob/main/unet/config.json
mv config.json models/erase/
Требования:
pip install omegaconf
pip install pytorch-lightning==1.6.5
pip install taming-transformers-rom1504
pip install kornia==0.5.11
pip install git+https://github.com/openai/CLIP.git
pip install diffusers==0.21.4
pip install -U transformers
pip install --upgrade nudenet
pip install lpips
Мы предоставляем сценарии обучения и оценки для экспериментов, описанных в статье, в следующих файлах bash.
Чтобы получить результаты, представленные в таблице 1 документа (т. е. стирание концепций, связанных с объектами), выполните следующую команду:
bash run_imagenette.sh
Чтобы получить результаты, представленные в Таблице 2 статьи (т. е. «Стирание концепции наготы»), выполните следующую команду:
bash run_nudity.sh
Чтобы получить результаты, представленные в Таблице 3 статьи (т. е. «Стирание художественных концепций»), выполните следующую команду:
bash run_artist.sh
Подготовить рисунки 1 и 2 документа (т. е. анализ последствий стирания целевой концепции).
bash run_abl_preserve.sh
Список подсказок, использованных в статье, можно найти в папке data
, в том числе:
english_3000.csv
: Список из 3000 английских слов.imagenette.csv
: список классов imagenette, 500 изображений в каждом классе.unsafe-prompts4703.csv
: Список небезопасных запросов I2P, 4703 запроса.long_nich_art_prompts.csv
: список для создания произведений пяти художников.similarity-nudity_200.csv
с similarity-nudity-4_200.csv
: список для создания конкретных объектов для изучения влияния стирания наготы и концепций мусоровозов.Мы обеспечиваем реализацию нашего метода и исходных данных:
train_adversarial_gumbel.py
: реализация нашего метода.train_esd.py
: реализация ESD.train_uce.py
: реализация UCE.train-esd-preserve.py
: реализация ESD с сохранением для изучения влияния стирания наготы и концепций мусоровозов. Чтобы удалить концепции, измените файл utils_exp.py
и измените аргумент --prompt
в файлах bash.
Мы предоставляем результаты оценки нашего метода и базовые показатели в папке evaluation_folder
и соответствующих блокнотах для воспроизведения результатов в статье.
Если вы найдете эту работу полезной в своих исследованиях, пожалуйста, рассмотрите возможность цитирования нашей статьи (или других наших статей?):
@article { bui2024erasing ,
title = { Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation } ,
author = { Bui, Anh and Vuong, Long and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
booktitle = { NeurIPS } ,
year = { 2024 }
}
@article { bui2024adaptive ,
title = { Fantastic Targets for Concept Erasure in Diffusion Models and Where to Find Them } ,
author = { Bui, Anh and Vu, Trang and Vuong, Long and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { Preprint } ,
year = { 2024 }
}
@article { bui2024removing ,
title = { Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts } ,
author = { Bui, Anh and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { arXiv preprint arXiv:2403.12326 } ,
year = { 2024 }
}
Этот репозиторий основан на репозитории Erasing Concepts from Diffusion Models.