В этой статье рассматриваются последние достижения в области технологии передачи стилей текстовых изображений и проблемы, с которыми она сталкивается. В последние годы генеративные модели преобразования текста в изображение добились значительного прогресса, обеспечивая более точную передачу стилей, но такие проблемы, как переобучение стилей, неточное выравнивание текста и артефакты генерации, все еще существуют. Чтобы решить эти проблемы, исследователи предложили три взаимодополняющие стратегии, в том числе кросс-модальное слияние на основе AdaIN, руководство без классификаторов на основе стилей (SCFG) и использование моделей учителей для стабилизации макета, а также подтвердили их эффективность с помощью экспериментов, показав Это значительно улучшает качество создаваемых изображений и их соответствие текстовым подсказкам.
Передача стиля на основе текста — важная задача в области синтеза изображений, цель которой — совместить стиль эталонного изображения с содержимым, описываемым текстовой подсказкой. В последнее время значительный прогресс был достигнут в генеративных моделях преобразования текста в изображение, обеспечивающих более точную передачу стиля при сохранении высокой точности контента. Эта технология имеет огромную практическую ценность в таких областях, как цифровая живопись, реклама и игровой дизайн.
Однако существующие методы переноса стиля все еще имеют некоторые недостатки. К основным проблемам относятся:
Переобучение стиля: существующие модели имеют тенденцию копировать все элементы эталонного изображения, в результате чего сгенерированное изображение становится слишком близким к характеристикам изображения эталонного стиля, что ограничивает эстетическую гибкость и адаптируемость сгенерированного изображения.
Неточное выравнивание текста: модель может отдавать приоритет доминирующему цвету или узору эталонного изображения, даже если эти элементы противоречат инструкциям в текстовой подсказке.
Создание артефактов. Перенос стиля может привести к появлению нежелательных артефактов, таких как повторяющиеся узоры (например, эффект шахматной доски), которые нарушают общий макет изображения.
Для решения этих проблем исследователи предложили три взаимодополняющие стратегии:
Межмодальное слияние на основе AdaIN: используйте механизм адаптивной нормализации экземпляров (AdaIN) для интеграции функций изображения стиля в текстовые функции, а затем объединяйте их с функциями изображения. Такое адаптивное сочетание создает более целостную подпись руководства, более гармонично совмещая элементы стиля с текстовыми инструкциями. AdaIN эффективно интегрирует стиль в контент, корректируя характеристики контента с учетом статистики стиля, сохраняя при этом согласованность контента и текстового описания.
Руководство без классификаторов на основе стилей (SCFG). Разработайте метод руководства по стилю, который фокусируется на целевом стиле и сокращает количество ненужных элементов стиля. При использовании генеративной модели, управляемой макетом (например, ControlNet), создается «негативное» изображение, в котором отсутствует целевой стиль. Это негативное изображение действует как «пустой» сигнал в модели диффузии, позволяя руководству полностью сосредоточиться на целевом элементе стиля.
Стабилизация макета с использованием моделей учителей: вводите модели учителей на ранних стадиях создания. Модель учителя основана на исходной модели преобразования текста в изображение, выполняет генерацию шумоподавления с теми же текстовыми подсказками одновременно с моделью стиля и делится своей пространственной картой внимания на каждом временном шаге. Этот метод обеспечивает стабильное и последовательное пространственное распределение, эффективно устраняя такие проблемы, как артефакты шахматной доски. Кроме того, он обеспечивает согласованное пространственное расположение одной и той же текстовой подсказки на эталонных изображениях разных стилей.
Исследователи проверили эффективность этих методов посредством обширных экспериментов. Результаты показывают, что этот метод позволяет значительно улучшить качество передачи стиля сгенерированных изображений и сохранить согласованность с текстовыми репликами. Что еще более важно, этот метод можно интегрировать в существующие структуры передачи стилей без тонкой настройки.
В ходе экспериментов исследователи обнаружили, что нестабильность механизма перекрестного внимания может привести к появлению артефактов. Механизм самообслуживания играет ключевую роль в поддержании макета и пространственной структуры изображений, фиксируя пространственные отношения высокого уровня для стабилизации базового макета во время генерации. Выборочно заменяя определенные карты внутреннего внимания в стилизованном изображении, можно сохранить пространственные отношения ключевых элементов изображения, гарантируя, что основная компоновка останется единообразной на протяжении всего процесса шумоподавления.
Кроме того, руководство без классификаторов на основе стилей (SCFG) эффективно решает проблему неоднозначности стиля, которая может выборочно подчеркивать желаемые элементы стиля, отфильтровывая при этом ненужные или конфликтующие функции. Этот подход снижает риск переоснащения нерелевантных компонентов стиля за счет использования модели с управлением макетом для создания изображений негативного стиля, позволяя модели сосредоточиться на передаче желаемых компонентов стиля.
Исследователи также провели эксперименты по абляции, чтобы оценить влияние каждого компонента. Результаты показывают, что как кросс-модальное слияние на основе AdaIN, так и модели учителей могут значительно повысить точность выравнивания текста, и они имеют взаимодополняющий эффект.
Таким образом, метод, предложенный в этом исследовании, может эффективно облегчить проблемы переобучения стиля и нестабильности макета, существующие в существующих методах передачи стилей на основе текста, тем самым достигая более высокого качества генерации изображений и обеспечивая поддержку задач синтеза текста в изображение. мощное решение.
Адрес статьи: https://arxiv.org/pdf/2412.08503.
Это исследование обеспечивает эффективное решение ключевых проблем передачи стилей изображений с помощью текста, обеспечивая новые прорывы в области генерации высококачественных изображений и синтеза текста в изображение. Результаты исследования имеют широкие перспективы применения и заслуживают дальнейшего углубленного изучения и изучения.