Кушик Шриватсан Фахад Шамшад Музаммаль Насир Картик Нандакумар
Университет искусственного интеллекта Мохамеда бен Заида (MBZUAI), ОАЭ .
Быстрое распространение крупномасштабных моделей преобразования текста в изображение (T2IG) привело к обеспокоенности по поводу их потенциального неправильного использования для создания вредоносного контента. Хотя было предложено множество методов для стирания нежелательных концепций из моделей T2IG, они дают лишь ложное чувство безопасности, поскольку недавние работы показывают, что модели со стертыми концепциями (CEM) можно легко обмануть, чтобы создать стертую концепцию посредством состязательных атак. Проблема стирания концепции с помощью состязательного действия без существенного ухудшения полезности модели (способности генерировать безопасные концепции) остается нерешенной проблемой, особенно в условиях «белого ящика», когда противник имеет доступ к CEM. Чтобы устранить этот пробел, мы предлагаем подход под названием STEREO , который включает в себя два отдельных этапа. Первый этап « Тщательно ищет » ( STE ) для сильных и разнообразных состязательных подсказок, которые могут восстановить стертую концепцию из CEM, используя надежные принципы оптимизации, полученные на основе состязательного обучения. На втором этапе « Надежное стирание однократно» ( REO ) мы вводим композиционную цель, основанную на якорной концепции, чтобы надежно стереть целевую концепцию за один раз, пытаясь при этом минимизировать ухудшение полезности модели. Сравнивая предлагаемый подход STEREO с четырьмя современными методами стирания концепций в условиях трех состязательных атак, мы демонстрируем его способность достигать лучшего компромисса между надежностью и полезностью.
Крупномасштабные диффузионные модели для преобразования текста в изображение подвержены состязательным атакам, которые могут регенерировать вредоносные концепции, несмотря на усилия по удалению. Мы представляем STEREO — надежный подход, предназначенный для предотвращения такой регенерации, сохраняя при этом способность модели генерировать безопасный контент.
Обзор СТЕРЕО . Мы предлагаем новую двухэтапную структуру для состязательного стирания концепций из предварительно обученных моделей генерации текста в изображение без существенного влияния на полезность безобидных концепций.
Этап 1 (вверху) : Достаточно тщательный поиск (STE) следует надежной структуре оптимизации состязательного обучения и формулирует стирание концепций как мини-максную задачу оптимизации, чтобы обнаружить сильные состязательные подсказки, которые могут восстановить целевые концепции из стертых моделей. Обратите внимание, что основная новизна нашего подхода заключается в том, что мы используем AT не как окончательное решение, а только как промежуточный шаг для достаточно тщательного поиска сильных состязательных подсказок.
Этап 2 (внизу) : Надежное стирание. Однократная точная настройка модели с использованием концепции привязки и набора сильных состязательных подсказок из этапа 1 через композиционную цель, поддерживая высокоточную генерацию безопасных концепций при одновременном надежном стирании целевой концепции.
Если вы найдете нашу работу и этот репозиторий полезными, поставьте звездочку нашему репозиторию и процитируйте нашу статью следующим образом:
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
Если у вас есть какие-либо вопросы, создайте проблему в этом репозитории или свяжитесь по адресу [email protected].
Наш код построен на основе репозитория ESD. Мы благодарим авторов за выпуск своего кода.