Скачать awesome text to image studies - awesome text to image studies Загрузка исходного кода

awesome text to image studies

AI Исходный код

1.0.0

Скачать

Сборник исследований по преобразованию текста в изображение

В этом репозитории GitHub собраны статьи и ресурсы, связанные с задачей преобразования текста в изображение (T2I).

Примечание

Этот документ служит homepage всего репозитория GitHub. Статьи обобщены по различным направлениям исследований, годам публикации и конференциям.

В разделе topics обобщены статьи, которые тесно связаны с генерацией T2I по различным свойствам, например, предпосылки генерации T2I, модели диффузии с другими методами (например, диффузионный преобразователь, LLM, Mamba и т. д.) и модели диффузии для других задач.

Если у вас есть какие-либо предложения по поводу этого репозитория, не стесняйтесь создавать новую задачу или запросы на включение.

Последние новости об этом репозитории GitHub перечислены ниже.

[ноябрь. 19 числа] Мы выпустили нашу последнюю статью под названием «StableV2V: Стабилизация согласованности формы при редактировании видео в видео» с открытым исходным кодом соответствующего кода, весов моделей и тестового теста DAVIS-Edit . Не стесняйтесь проверить их по ссылкам!

Нажмите, чтобы увидеть дополнительную информацию.

[Апрель. 26 числа] Обновите новую тему: Модели распространения соответствуют федеративному обучению. Подробности смотрите в разделе topics !
[Мар. 28 числа] Опубликован официальный список бумаг AAAI 2024 ! Официальные версии PDF-файлов и ссылки на BibTeX обновляются соответствующим образом.
[Мар. 21 числа] Обновлен раздел topics . Целью этого раздела является предоставление списков статей, которые обобщены в соответствии с другими свойствами моделей диффузии , например, методы на основе диффузионного преобразователя, модели диффузии для НЛП, модели диффузии, интегрированные с LLM и т. д. Соответствующие ссылки на эти статьи также заключаются в reference.bib .
[Мар. 7-е] Обновлены все доступные документы и ссылки CVPR, ICLR и AAAI 2024 .
[Мар. 1-е] Кратко представлены веб-сайты готовых продуктов и наборов инструментов для преобразования текста в изображение .

Содержание

Продукты
Списки дел
Статьи
- Обзорные документы
- Генерация текста в изображение
  - 2024 год
  - 2023 год
  - 2022 год
  - 2021 год
  - 2020 год
- Условное преобразование текста в изображение
  - 2024 год
  - 2023 год
  - 2022 год
- Персонализированное преобразование текста в изображение
  - 2024 год
  - 2023 год
- Редактирование изображений с текстовым управлением
  - 2024 год
  - 2023 год
  - 2022 год
- Генерация текстового изображения
  - 2024 год
Наборы данных
Наборы инструментов
Вопросы и ответы
Ссылки
Звездная история

Списки дел

Опубликованные статьи о конференциях
- Обновление документов NeurIPS 2024
- Обновление документов ECCV 2024
- Обновление документов CVPR 2024
  - Обновлять ️ Статьи и ссылки
  - Обновите ссылки на arXiv до официальной версии.
- Обновление документов AAAI 2024
  - Обновлять ️ Статьи и ссылки
  - Обновите ссылки на arXiv до официальной версии.
- Обновление документов ICLR 2024
- Обновление документов NeurIPS 2023
Регулярное обслуживание препринтов arXiv и пропущенных статей

<Вернуться к началу>

Продукты

Имя	Год	Веб-сайт	Специальности
Стабильная диффузия 3	2024 год	связь	Стабильная диффузия на основе диффузионного трансформатора
Стабильное видео	2024 год	связь	Качественные изображения с высоким разрешением
ДАЛЛ-И 3	2023 год	связь	Сотрудничать с ChatGPT
Идеограмма	2023 год	связь	Текстовые изображения
Детская площадка	2023 год	связь	Астетические изображения
HiDream.ai	2023 год	связь	-
Даштун	2023 год	связь	Преобразование текста в комикс
ШЕЕ	2023 год	связь	WHEE — это онлайн-инструмент для создания искусственного интеллекта, который можно применять для генерации T2I, генерации I2I, SR, закрашивания, закрашивания, изменения изображения, виртуальной примерки и т. д.
Вега ИИ	2023 год	связь	Vega AI — это онлайн-инструмент для создания искусственного интеллекта, который можно применять для генерации T2I, генерации I2I, SR, генерации T2V, генерации I2V и т. д.
Уцзе ИИ	2022 год	связь	Китайское название — «无界AI», предлагающее ресурсы и онлайн-услуги AIGC.
Середина пути	2022 год	связь	Мощный инструмент генерации с закрытым исходным кодом

<Вернуться к началу>

Статьи

Обзорные документы

Генерация текста в изображение
- 2024 год
  - Обзоры вычислительной техники ACM
    - Модели диффузии: комплексный обзор методов и приложений [статья]
- 2023 год
  - ТПАМИ
    - Модели диффузии в зрении: обзор [Документ] [Код]
  - arXiv
    - Модели диффузии текста в изображение в генеративном искусственном интеллекте: обзор [статья]
    - Современное состояние моделей диффузии для визуальных вычислений [статья]
- 2022 год
  - arXiv
    - Эффективные модели распространения зрения: обзор [статья]
Условное преобразование текста в изображение
- 2024 год
  - arXiv
    - Управляемая генерация с помощью моделей диффузии текста в изображение: обзор [статья]
Редактирование изображений с текстовым управлением
- 2024 год
  - arXiv
    - Редактирование изображений на основе модели диффузии: обзор [Документ] [Код]

<Вернуться к началу>

Генерация текста в изображение

2024 год
- ЦВПР
  - DistriFusion: распределенный параллельный вывод для моделей диффузии высокого разрешения [Документ] [Код]
  - InstanceDiffusion: управление на уровне экземпляра для создания изображений [Бумага] [Код] [Проект]
  - ECLIPSE: ресурсоэффективное преобразование текста в изображение для генерации изображений [Бумага] [Код] [Проект] [Демо]
  - Instruct-Imagen: генерация изображений с помощью мультимодальных инструкций [документ]
  - Изучение непрерывных 3D-слов для преобразования текста в изображение [Бумага] [Код]
  - HanDiffuser: преобразование текста в изображение с реалистичным внешним видом рук [статья]
  - Богатая обратная связь между людьми для преобразования текста в изображение [статья]
  - MarkovGen: структурированное прогнозирование для эффективного преобразования текста в изображение [статья]
  - Помощник по настройке для преобразования текста в изображение [бумага]
  - ADI: изучение распутанных идентификаторов для создания персонализированного преобразования текста в изображение [документ] [проект]
  - UFOGen: вы пересылаете один раз крупномасштабную генерацию текста в изображение с помощью диффузионных GAN [бумага]
  - Самообнаружение интерпретируемых скрытых направлений диффузии для ответственной генерации текста в изображение [статья]
  - Индивидуальные концепции: улучшение преобразования текста в изображение с помощью персонализированного переписывания подсказок [Документ] [Код]
  - CoDi: условная диффузионная дистилляция для более высокой точности и ускорения генерации изображений [Документ] [Код] [Проект] [Демо]
  - Генерация изображений произвольного масштаба и повышенная дискретизация с использованием модели скрытой диффузии и неявного нейронного декодера [статья]
  - На пути к эффективному использованию человекоцентрических априорных моделей в диффузионных моделях для создания текстовых изображений человека [статья]
  - ElasticDiffusion: генерация изображений произвольного размера без обучения [Бумага] [Код] [Проект] [Демо]
  - CosmicMan: базовая модель преобразования текста в изображение для людей [Документ] [Код] [Проект]
  - PanFusion: преобразование стабильной диффузии текста в создание панорамных изображений на 360° [Бумага] [Код] [Проект]
  - Интеллектуальный Гримм: открытое визуальное повествование с помощью скрытых моделей диффузии [Документ] [Код] [Проект]
  - О масштабируемости генерации текста в изображение на основе диффузии [статья]
  - MuLAN: многослойный аннотированный набор данных для управляемого преобразования текста в изображение [Документ] [Проект] [Набор данных]
  - Изучение многомерных человеческих предпочтений при преобразовании текста в изображение [статья]
  - Динамическая оптимизация подсказок для преобразования текста в изображение [бумага]
  - Модели распространения обучения для создания разнообразных изображений с помощью обучения с подкреплением [статья]
  - Состязательный текст для непрерывной генерации изображений [Документ] [Проект] [Видео]
  - EmoGen: генерация контента эмоциональных изображений с помощью моделей диффузии текста в изображение [Документ] [Код]
- ECCV
  - Объединение различных языковых моделей и моделей генеративного видения для преобразования текста в изображение [Документ] [Код] [Проект]
  - Исследование заземления на уровне фраз с помощью модели диффузии текста в изображение [Документ] [Код]
  - Правильное решение: улучшение пространственной согласованности в моделях преобразования текста в изображение [Документ] [Код] [Проект]
  - Навигация по порождающему смещению текста в изображение в индийских языках [Документ] [Проект]
  - Защитите модели диффузии текста в изображение с помощью инверсии обратной связи от человека [статья]
  - Изготовление реальности и фантазии: создание сцен с оперативной интерпретацией с помощью LLM [Документ] [Код] [Проект] [Набор данных]
  - Надежное и эффективное стирание концепций моделей диффузии текста в изображение [Документ] [Код]
  - Исследование заземления на уровне фраз с помощью модели диффузии текста в изображение [Документ] [Код]
  - StyleTokenizer: определение стиля изображения с помощью одного экземпляра для управления моделями диффузии [Документ] [Код]
  - PEA-Diffusion: адаптер с эффективными параметрами и дистилляцией знаний при генерации неанглоязычного текста в изображение [бумага] [код]
  - Перекосы в пространстве явлений мешают обобщению при преобразовании текста в изображение [Документ] [Код]
  - Parrot: оптимальная по Парето структура обучения с множественным вознаграждением и подкреплением для преобразования текста в изображение [документ]
  - Объединение различных языковых моделей и моделей генеративного видения для преобразования текста в изображение [Документ] [Код] [Проект]
  - MobileDiffusion: мгновенное преобразование текста в изображение на мобильных устройствах [бумага]
  - PixArt-Σ: обучение диффузионного преобразователя от слабого до сильного для преобразования текста в изображение 4K [Документ] [Код] [Проект]
  - CogView3: более точное и быстрое преобразование текста в изображение с помощью Relay Diffusion [Документ] [Код]
- ICLR
  - Исправленные модели диффузии с шумоподавлением для синтеза изображений высокого разрешения [Документ] [Код]
  - Relay Diffusion: унификация процесса диффузии между разрешениями для синтеза изображений [Документ] [Код]
  - SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения [Документ] [Код]
  - Compose and Conquer: синтез составных изображений 3D на основе диффузии с учетом глубины [Документ] [Код]
  - PixArt-α: быстрое обучение диффузионного преобразователя для фотореалистичного синтеза текста в изображение [Документ] [Код] [Проект] [Демо]
- СИГРАФ
  - RGB↔X: разложение и синтез изображения с использованием моделей диффузии с учетом материалов и освещения [Документ] [Проект]
- АААИ
  - Семантическое увеличение данных для синтеза текста в изображение [Документ]
  - Генерация текста в изображение для абстрактных концепций [статья]
- arXiv
  - Самостоятельная точная настройка моделей диффузии для преобразования текста в изображение [статья]
  - Ролевая игра: Освоение диффузии текста в изображение: повторение, планирование и генерация с помощью мультимодальных LLM [Документ] [Код]
  - Playground v2.5: Три идеи по улучшению эстетического качества при преобразовании текста в изображение [Документ] [Код]
  - ResAdapter: Адаптер доменно-согласованного разрешения для диффузионных моделей [Документ] [Код] [Проект]
  - InstantID: генерация с нулевым шансом сохранения личности за считанные секунды [Документ] [Код] [Проект] [Демо]
  - PIXART-δ: быстрое и управляемое создание изображений с помощью моделей скрытой согласованности [Документ] [Код]
  - ELLA: оснащение диффузионных моделей LLM для улучшенного семантического выравнивания [Документ] [Код] [Проект]
  - Text2Street: управляемое преобразование текста в изображение для просмотра улиц [Документ]
  - LayerDiffuse: диффузия слоев прозрачного изображения с использованием скрытой прозрачности [Бумага] [Код]
  - SD3-Turbo: быстрый синтез изображений высокого разрешения с помощью скрытой состязательной диффузионной дистилляции [статья]
  - StreamMultiDiffusion: интерактивная генерация в реальном времени с семантическим контролем на основе регионов [документ] [код]
  - SVGDreamer: генерация SVG с текстовым сопровождением и диффузионной моделью [Документ] [Код] [Проект]
  - PromptCharm: генерация текста в изображение посредством мультимодальных подсказок и уточнений [бумага]
  - YOSO: Вы пробуете только один раз: укрощение одношагового синтеза текста в изображение с помощью самокооперативных диффузионных GAN [Документ] [Код]
  - SingDiffusion: решение особенностей в конечных точках временных интервалов в моделях диффузии [Документ] [Код]
  - CoMat: согласование модели распространения текста в изображение с сопоставлением концепции изображения в тексте [Документ] [Код] [Проект]
  - StoryDiffusion: постоянное внимание к себе для создания изображений и видео на большие расстояния [Документ] [Код] [Проект] [Демо]
  - Лицевой адаптер для предварительно обученных диффузионных моделей с детализированным идентификатором и контролем атрибутов [Документ] [Проект]
  - LinFusion: 1 графический процессор, 1 минута, изображение 16 КБ [Бумага] [Код] [Проект] [Демо]
  - OmniGen: унифицированное создание изображений [бумага] [код]
  - COMPASS: Улучшение пространственного понимания в моделях диффузии текста в изображение [Документ] [Код]
- Другие
  - Стабильный каскад [Блог] [Код]

<Вернуться к началу>

2023 год
- ЦВПР
  - GigaGAN: Масштабирование GAN для синтеза текста в изображение [Документ] [Воспроизведенный код] [Проект] [Видео]
  - ERNIE-ViLG 2.0: Улучшение модели распространения текста в изображение с помощью группы экспертов по шумоподавлению с расширенными знаниями [документ]
  - Смещенная диффузия для генерации текста в изображение [Бумага] [Код]
  - GALIP: Генеративно-состязательные CLIP для синтеза текста в изображение [Документ] [Код]
  - Специализированное распространение: эффективная точная настройка моделей распространения текста в изображение по принципу «включай и работай» для изучения любого невидимого стиля [Документ] [Код]
  - На пути к проверяемой и воспроизводимой человеческой оценке преобразования текста в изображение [статья]
  - RIATIG: надежная и незаметная состязательная генерация текста в изображение с помощью естественных подсказок [Документ] [Код]
- ICCV
  - DiffFit: открываем возможность переноса моделей большой диффузии посредством простой точной настройки с эффективным использованием параметров [Документ] [Код] [Демо]
- НейрИПС
  - ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение [Документ] [Код]
  - РАФАЭЛЬ : Генерация текста в изображение с помощью большого количества путей распространения [Документ] [Проект]
  - Лингвистическая привязка в моделях диффузии: улучшение соответствия атрибутов посредством выравнивания карты внимания [Документ] [Код]
  - DenseDiffusion: плотная генерация текста в изображение с модуляцией внимания [Документ] [Код]
- ICLR
  - Руководство по структурированной диффузии, не требующее обучения, для композиционного синтеза текста в изображение [Документ] [Код]
- ICML
  - StyleGAN-T: раскрытие возможностей GAN для быстрого крупномасштабного синтеза текста в изображение [бумага] [код] [проект] [видео]
  - Muse: генерация текста в изображение с помощью генеративных преобразователей в маске [Документ] [Воспроизведенный код] [Проект]
  - UniDiffusers: один трансформатор подходит для всех распределений в мультимодальной диффузии в масштабе [Документ] [Код]
- АКМ ММ
  - SUR-адаптер: улучшение предварительно обученных моделей диффузии текста в изображение с помощью больших языковых моделей [Документ] [Код]
  - ControlStyle: создание стилизованных изображений на основе текста с использованием априорных методов диффузии [статья]
- СИГРАФ
  - Attend-and-Excite: основанное на внимании семантическое руководство для моделей диффузии текста в изображение [Документ] [Код] [Проект] [Демо]
- arXiv
  - P+: расширенное текстовое преобразование при преобразовании текста в изображение [статья]
  - SDXL-Turbo: Состязательная диффузионная дистилляция [Документ] [Код]
  - Wuerstchen: эффективная архитектура для крупномасштабных моделей диффузии текста в изображение [документ] [код]
  - StreamDiffusion: решение на уровне конвейера для интерактивной генерации в реальном времени [Документ] [Проект]
  - ParaDiffusion: генерация абзацев в изображения с помощью модели диффузии, обогащенной информацией [Документ] [Код]
- Другие
  - DALL-E 3: Улучшение создания изображений с помощью более качественных подписей [документ]

<Вернуться к началу>

2022 год
- ЦВПР
  - Стабильная диффузия: синтез изображений высокого разрешения с использованием моделей скрытой диффузии [Документ] [Код] [Проект]
  - Модель векторной квантовой диффузии для синтеза текста в изображение [Документ] [Код]
  - DF-GAN: простая и эффективная основа для синтеза текста в изображение [Документ] [Код]
  - LAFITE: На пути к безязычному обучению преобразованию текста в изображение [Документ] [Код]
  - Синтез текста в изображение на основе объектно-управляемого преобразователя совместного декодирования [Документ]
  - StyleT2I: К композиционному и высокоточному синтезу текста в изображение [Документ] [Код]
- ECCV
  - Make-A-Scene: генерация текста в изображение на основе сцены с использованием человеческих приоритетов [Документ] [Код] [Демо]
  - Трассировка управляемого текста для создания изображения [бумага]
  - Улучшенное создание маскированных изображений с помощью Token-Critic [бумага]
  - VQGAN-CLIP: генерация изображений открытого домена и манипулирование ими с использованием естественного языка [документ] [код]
  - ТИСЭ: Пакет показателей для оценки синтеза текста в изображение [Документ] [Код]
  - StoryDALL-E: Адаптация предварительно обученных преобразователей текста в изображение для продолжения истории [Документ] [Код] [Демо]
- НейрИПС
  - CogView2: более быстрое и лучшее преобразование текста в изображение с помощью иерархических преобразователей [Документ] [Код]
  - Изображение: Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка [Документ] [Воспроизведенный код] [Проект] [ Изображение 2 ]
- АКМ ММ
  - Adma-GAN: GAN с расширенной памятью на основе атрибутов для генерации текста в изображение [Документ] [Код]
  - Генерация фонового макета и передача знаний об объектах для преобразования текста в изображение [бумага]
  - DSE-GAN: Генерирующая состязательная сеть динамической семантической эволюции для преобразования текста в изображение [Документ]
  - AtHom: два расходящихся внимания, стимулируемые гомоморфным обучением синтезу текста в изображение [статья]
- arXiv
  - DALLE-2: Иерархическая генерация изображений с условным текстом с помощью CLIP Latents [Документ]
  - PITI: предварительное обучение — это все, что вам нужно для перевода изображения в изображение [Документ] [Код]

<Вернуться к началу>

2021 год
- ICCV
  - DAE-GAN: динамический GAN с учетом аспектов для синтеза текста в изображение [Документ] [Код]
- НейрИПС
  - CogView: освоение преобразования текста в изображение с помощью преобразователей [Документ] [Код] [Демо]
  - UFC-BERT: унификация многомодальных элементов управления для условного синтеза изображений [документ]
- ICML
  - DALLE-1: Генерация текста в изображение с нулевым разрешением [бумага] [воспроизведенный код]
- АКМ ММ
  - Циклически согласованный обратный GAN для синтеза текста в изображение [Документ]
  - R-GAN: изучение человеческого способа разумного синтеза текста в изображение с помощью генеративно-состязательных сетей [документ]

<Вернуться к началу>

2020 год
- АКМ ММ
  - Синтез текста в изображение с помощью эстетического макета [бумага]

<Вернуться к началу>

Условное преобразование текста в изображение

2024 год
- ЦВПР
  - МЕСТО: Адаптивный макет и семантическое слияние для семантического синтеза изображений [Документ]
  - Однократный синтез стилизованного изображения с учетом структуры [бумага]
  - Обоснованный синтез текста в изображение с перефокусировкой внимания [Документ] [Код] [Проект] [Демо]
  - Скрытая диффузия от грубого до мелкого для синтеза изображений человека с наведением позы [Бумага] [Код]
  - DetDiffusion: синергия генеративных и перцептивных моделей для улучшения генерации и восприятия данных [документ]
  - CAN: нейронная сеть с учетом состояния для контролируемой генерации изображений [документ]
  - SceneDiffusion: переместите что угодно с помощью многоуровневого распределения сцены [бумага]
  - Zero-Painter: управление макетом без обучения для синтеза текста в изображение [Бумага] [Код]
  - MIGC: Контроллер генерации нескольких экземпляров для синтеза текста в изображение [Бумага] [Код] [Проект]
  - FreeControl: пространственное управление любой моделью диффузии текста в изображение, не требующее обучения, с любыми условиями [Документ] [Код] [Проект]
- ECCV
  - PrecisionControl: улучшение моделей диффузии текста в изображение с помощью детального управления атрибутами [Бумага] [Код] [Проект]
  - AnyControl: создайте свою иллюстрацию с помощью универсального управления генерацией текста в изображение [Бумага] [Код]
- ICLR
  - Улучшение синтеза изображений с наведением по позе с помощью моделей прогрессивной условной диффузии [Документ] [Код]
- ВАКВ
  - Управление макетом без обучения и управление перекрестным вниманием [Бумага] [Код] [Проект] [Демо]
- АААИ
  - SSMG: Модель диффузии, управляемая пространственно-семантической картой, для генерации макета в изображение произвольной формы [Документ]
  - Композиционный синтез текста в изображение с управлением картой внимания диффузионных моделей [Документ] [Код]
- arXiv
  - DEADiff: эффективная модель диффузии стилизации с распутанными представлениями [статья]
  - InstantStyle: бесплатный обед по сохранению стиля при преобразовании текста в изображение [Документ] [Код] [Проект]
  - ControlNet++: Улучшение условных элементов управления с помощью эффективной обратной связи по согласованности [Документ] [Проект]
  - Hunyuan-DiT: мощный диффузионный преобразователь с несколькими разрешениями и детальным пониманием китайского языка [Документ] [Код] [Проект]
  - DialogGen: Мультимодальная интерактивная диалоговая система для многоходовой генерации текста в изображение [Документ] [Код] [Проект]
  - ControlNeXt: мощное и эффективное управление созданием изображений и видео [Документ] [Код] [Проект]
  - UniPortrait: унифицированная платформа для персонализации изображений одного и нескольких людей с сохранением идентичности [Документ] [Код] [Проект] [Демо]
  - OmniControl: минимальное и универсальное управление диффузионным трансформатором [Документ] [Код] [Демо]
  - UnZipLoRA: разделение контента и стиля из одного изображения [Документ] [Проект]
  - CtrLoRA: расширяемая и эффективная платформа для управляемой генерации изображений [документ] [код]
  - Генерация текста в изображение с учетом региона посредством жесткой привязки и мягкого уточнения [Бумага] [Код]

<Вернуться к началу>

2023 год
- ЦВПР
  - GLIGEN: Генерация текста в изображение с открытым набором [Бумага] [Код] [Проект] [Демо] [Видео]
  - Генерация авторегрессионного изображения с использованием остаточного квантования [Бумага] [Код]
  - SpaText: пространственно-текстовое представление для управляемой генерации изображений [Документ] [Проект] [Видео]
  - Генерация текста в изображение с помощью GAN с семантико-пространственной ориентацией [Документ]
  - ReCo: генерация текста в изображение с контролем региона [бумага] [код]
  - LayoutDiffusion: управляемая модель диффузии для создания макета в изображение [Документ] [Код]
- ICCV
  - ControlNet: добавление условного управления к моделям диффузии текста в изображение [Документ] [Код]
  - SceneGenie: модели диффузии, управляемые графом сцены, для синтеза изображений [Документ] [Код]
  - ZestGuide: Кондиционирование пространственного макета с нулевым выстрелом для моделей диффузии текста в изображение [бумага]
- ICML
  - Composer: творческий и управляемый синтез изображений с компонуемыми условиями [Документ] [Код] [Проект]
  - MultiDiffusion: объединение путей распространения для контролируемой генерации изображений [Бумага] [Код] [Видео] [Проект] [Демо]
- СИГРАФ
  - Модели диффузии текста в изображение на основе эскизов [Документ] [Воспроизведенный код] [Проект]
- НейрИПС
  - Uni-ControlNet: комплексное управление моделями диффузии текста в изображение [Документ] [Код] [Проект]
  - Быстрое распространение: контекстное обучение доступно для моделей диффузии [Документ] [Код] [Проект]
- ВАКВ
  - Больше контроля бесплатно! Синтез изображений с руководством по семантической диффузии [статья]
- АКМ ММ
  - LayoutLLM-T2I: получение рекомендаций по макету от LLM для преобразования текста в изображение [бумага]
- arXiv
  - T2I-адаптер: обучающие адаптеры для получения более управляемых возможностей для моделей диффузии текста в изображение [Документ] [Код] [Демо]
  - BLIP-Diffusion: предварительно обученное представление субъектов для управляемого преобразования текста в изображение и редактирования [Документ] [Код]
  - Руководство по диффузии с поздними ограничениями для управляемого синтеза изображений [Документ] [Код]
2022 год
- ICLR
  - SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [Документ] [Код] [Проект]

<Вернуться к началу>

Персонализированное преобразование текста в изображение

2024 год
- ЦВПР
  - Перекрестная инициализация для персонализированной генерации текста в изображение [бумага]
  - Когда StyleGAN встречает стабильную диффузию: адаптер W+ для создания персонализированных изображений [Бумага] [Код] [Проект]
  - Генерация изображений с согласованным стилем посредством общего внимания [Документ] [Код] [Проект]
  - InstantBooth: персонализированное преобразование текста в изображение без тонкой настройки во время тестирования [Документ] [Проект]
  - Высокоточный синтез субъектно-изображенных изображений, ориентированный на человека [Документ]
  - RealCustom: Сужение реального текстового слова для настройки преобразования текста в изображение в открытом домене в реальном времени [Документ] [Проект]
  - DisenDiff: калибровка внимания для четкой персонализации преобразования текста в изображение [бумага] [код]
  - FreeCustom: создание персонализированных изображений без настройки для мультиконцептуальной композиции [Документ] [Код] [Проект]
  - Персонализированные остатки для концептуальной генерации текста в изображение [бумага]
  - Улучшение синтеза субъектно-ориентированных изображений с помощью субъектно-агностического руководства [статья]
  - JeDi: модели диффузии совместных изображений для создания персонализированного преобразования текста в изображение без точной настройки [статья]
  - Противодействие созданию персонализированного преобразования текста в изображение с помощью водяных знаков влияния [статья]
- ECCV
  - Будьте собой: ограниченное внимание для многопредметной генерации текста в изображение [Документ] [Проект]
  - Мощно и гибко: персонализированное преобразование текста в изображение с помощью обучения с подкреплением [Документ] [Код]
  - TIGC: настройка изображения без настройки с помощью изображений и текстовых указаний [Документ] [Код] [Проект]
  - MasterWeaver: укрощение возможности редактирования и идентификации лица для персонализированного преобразования текста в изображение [Документ] [Код] [Проект]
- АААИ
  - Разделенные текстовые встраивания для создания персонализированных изображений [бумага]
- arXiv
  - FlashFace: персонализация изображения человека с высокоточным сохранением личности [Документ] [Код] [Проект]
  - MoMA: мультимодальный адаптер LLM для быстрого создания персонализированных изображений [бумага]
  - IDAdapter: изучение смешанных функций для персонализации моделей преобразования текста в изображение без настройки [бумага]
  - CoRe: Обучение контекстно-регуляризованному встраиванию текста для персонализации преобразования текста в изображение [Документ]
  - Представьте себе: создание персонализированных изображений без настройки [Документ] [Проект]
2023 год
- ЦВПР
  - Custom Diffusion: мультиконцептуальная настройка распространения текста в изображение [Документ] [Код] [Проект]
  - DreamBooth: точная настройка моделей диффузии текста в изображение для субъектно-ориентированной генерации [Документ] [Код] [Проект]
- ICCV
  - ELITE: кодирование визуальных концепций в текстовые встраивания для индивидуального преобразования текста в изображение [Документ] [Код]
- ICLR
  - Текстовая инверсия: изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии [Документ] [Код] [Проект]
- СИГРАФ
  - Break-A-Scene: извлечение нескольких концепций из одного изображения [Документ] [Код]
  - Настройка домена на основе кодировщика для быстрой персонализации моделей преобразования текста в изображение [Документ] [Проект]
  - LayerDiffusion: многоуровневое редактирование контролируемых изображений с помощью моделей диффузии [бумага]
- arXiv
  - DreamTuner: одного изображения достаточно для тематической генерации [Документ] [Проект]
  - PhotoMaker: настройка реалистичных фотографий людей с помощью встраивания сложенных идентификаторов [бумага] [код]
  - IP-адаптер: адаптер подсказки изображения, совместимый с текстом, для моделей диффузии текста в изображение [Бумага] [Код] [Проект]
  - FastComposer: генерация многообъектных изображений без настройки с локализованным вниманием [Документ] [Код]

<Вернуться к началу>

Редактирование изображений с помощью текста

2024 год
- ЦВПР
  - InfEdit: редактирование изображений без инверсии с использованием естественного языка [Документ] [Код] [Проект]
  - К пониманию перекреста и внимания к себе в стабильной диффузии для редактирования изображений с текстовым управлением [статья]
  - Двойной абдуктивный контрфактический вывод для редактирования текстовых изображений [Документ] [Код]
  - Сосредоточьтесь на своей инструкции: детальное редактирование изображений с несколькими инструкциями с помощью модуляции внимания [Бумага] [Код]
  - Оценка контрастного шумоподавления для редактирования изображений со скрытой диффузией под управлением текста [бумага]
  - DragDiffusion: использование моделей диффузии для интерактивного точечного редактирования изображений [Документ] [Код]
  - DiffEditor: повышение точности и гибкости редактирования изображений на основе диффузии [документ]
  - FreeDrag: перетаскивание элементов для надежного редактирования изображений по точкам [Бумага] [Код]
  - Редактирование изображений на основе текста с помощью обучаемых областей [Бумага] [Код] [Проект] [Видео]
  - LEDITS++: безграничное редактирование изображений с использованием моделей преобразования текста в изображение [Бумага] [Код] [Проект] [Демо]
  - SmartEdit: изучение сложного редактирования изображений на основе инструкций с помощью больших языковых моделей [Документ] [Код] [Проект]
  - Редактировать один для всех: интерактивное пакетное редактирование изображений [Бумага] [Код] [Проект]
  - DiffMorpher: раскрытие возможностей диффузионных моделей для морфинга изображений [Документ] [Код] [Проект] [Демо]
  - TiNO-Edit: оптимизация временного шага и шума для надежного редактирования изображений на основе диффузии [Документ] [Код]
  - Человек на месте: создание ассоциативных карт скелета-наведения для редактирования изображений взаимодействия человека и объекта [Документ] [Проект] [Код]
  - Редактирование ссылающихся изображений: редактирование изображений на уровне объекта с помощью ссылающихся выражений [Бумага]
  - Оперативное расширение для самостоятельного манипулирования изображениями с текстовым управлением [бумага]
  - Дьявол кроется в деталях: StyleFeatureEditor для детальной инверсии StyleGAN и высококачественного редактирования изображений [Бумага] [Код]
- ECCV
  - RegionDrag: быстрое редактирование изображений на основе регионов с помощью диффузионных моделей [Документ] [Код] [Проект] [Демо]
  - TurboEdit: мгновенное редактирование изображений на основе текста [Документ] [Проект]
  - InstructGIE: На пути к универсальному редактированию изображений [Статья]
  - StableDrag: стабильное перетаскивание для редактирования изображений по точкам [Бумага]
  - Эта-инверсия: разработка оптимальной эта-функции для редактирования реальных изображений на основе диффузии [Документ] [Код] [Проект]
  - SwapAnything: включение произвольной замены объектов при персонализированном редактировании изображений [Бумага] [Код] [Проект]
  - Наведение и изменение масштаба: механизм самоуправления для эффективного редактирования реального изображения без настройки [статья]
  - FreeDiff: прогрессивное усечение частоты для редактирования изображений с помощью моделей диффузии [Документ] [Код]
  - Ленивый диффузионный преобразователь для интерактивного редактирования изображений [Документ] [Проект]
  - ByteEdit: повышение, соответствие и ускорение генеративного редактирования изображений [Документ] [Проект]
- ICLR
  - Руководство по редактированию изображений на основе инструкций с помощью мультимодальных моделей большого языка [Документ] [Код] [Проект]
  - Благословение случайности: SDE превосходит ODE в редактировании изображений на основе диффузии [Документ] [Код] [Проект]
  - Управление движением: редактирование изображений на основе диффузии с помощью дифференцируемых средств оценки движения [Документ] [Код] [Проект]
  - Объектно-ориентированная инверсия и повторная сборка для редактирования изображений [Бумага] [Код] [Проект]
  - Руководство по карте шума: инверсия с пространственным контекстом для редактирования реальных изображений [статья]
- АААИ
  - Не требующее настройки управление с улучшенной инверсией для единообразного редактирования изображений [бумага]
  - BARET: редактирование реального изображения на основе сбалансированного внимания с помощью инверсии целевого текста [бумага]
  - Ускорение редактирования текста в изображение с помощью метода разреженного диффузионного вывода с поддержкой кэша [Документ]
  - Высокоточное редактирование изображений на основе диффузии [бумага]
  - AdapEdit: Алгоритм адаптивного редактирования с пространственно-временным управлением для редактирования изображений с учетом непрерывности текста [бумага]
  - TexFit: редактирование модных изображений на основе текста с помощью диффузионных моделей [бумага]
- arXiv
  - Предмет стоит подсказки: универсальное редактирование изображений с распутанным контролем [Бумага] [Код]
  - Одномерный адаптер, чтобы управлять всеми: концепции, модели диффузии и приложения для стирания [Документ] [Код] [Проект]
  - EditWorld: моделирование мировой динамики для редактирования изображений по инструкциям [Документ] [Код] [Проект]
  - ReasonPix2Pix: набор данных для рассуждения инструкций для расширенного редактирования изображений [бумага]
  - FlowEdit: редактирование текста без инверсии с использованием предварительно обученных моделей потока [Бумага] [Код] [Проект] [Демо]
2023 год
- ЦВПР
  - Раскрытие возможности распутывания в моделях диффузии текста в изображение [Документ] [Код]
  - SINE: редактирование изображений SINgle с помощью моделей диффузии текста в изображение [Бумага] [Код]
  - Imagic: редактирование реальных изображений на основе текста с помощью диффузионных моделей [статья]
  - InstructPix2Pix: учимся следовать инструкциям по редактированию изображений [Бумага] [Код] [Набор данных] [Проект] [Демо]
  - Инверсия нулевого текста для редактирования реальных изображений с использованием моделей управляемой диффузии [Документ] [Код]
- ICCV
  - MasaCtrl: взаимный контроль самоконтроля без настройки для согласованного синтеза и редактирования изображений [Документ] [Код] [Проект] [Демо]
  - Локализация изменений формы на уровне объекта с помощью моделей диффузии текста в изображение [Документ] [Код] [Проект] [Демо]
- ICLR
  - SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [Документ] [Код] [Проект]
2022 год
- ЦВПР
  - DiffusionCLIP: модели диффузии на основе текста для надежного манипулирования изображениями [Документ] [Код]

<Вернуться к началу>

Генерация текстового изображения

2024 год
- arXiv
  - AnyText: многоязычное визуальное создание и редактирование текста [Документ] [Код] [Проект]
- ЦВПР
  - SceneTextGen: синтез текстовых изображений сцены, не зависящий от макета, с интегрированным распространением на уровне символов и контекстной согласованностью [документ]

<Вернуться к началу>

Наборы данных

Microsoft COCO: общие объекты в контексте [документ] [набор данных]
Концептуальные подписи: очищенный гипернимированный набор данных изображений с альтернативным текстом для автоматического создания подписей к изображениям [Документ] [Набор данных]
LAION-5B: Открытый крупномасштабный набор данных для обучения графически-текстовых моделей следующего поколения [Документ] [Набор данных]
PartiPrompts: масштабирование авторегрессионных моделей для создания содержательного преобразования текста в изображение [Документ] [Набор данных] [Проект]

<Вернуться к началу>

Наборы инструментов

Имя	Веб-сайт	Описание
Стабильный веб-интерфейс диффузии	связь	Построен на основе Gradio, развертывается локально для запуска контрольных точек Stable Diffusion, весов LoRA, весов ControlNet и т. д.
Стабильная Diffusion WebUI-кузница	связь	Построен на основе Gradio, развертывается локально для запуска контрольных точек Stable Diffusion, весов LoRA, весов ControlNet и т. д.
Фукус	связь	Создано на основе Gradio, автономно, с открытым исходным кодом и бесплатно. Ручная настройка не требуется, и пользователям нужно только сосредоточиться на подсказках и изображениях.
Удобный интерфейс	связь	Развертывается локально, чтобы обеспечить возможность настройки рабочих процессов с помощью Stable Diffusion.
Чивитаи	связь	Веб-сайты сообщества для контрольных точек стабильной диффузии и LoRA

<Вернуться к началу>

Вопросы и ответы

Вопрос: Последовательность конференций в этом списке статей?
- Этот список статей организован в следующей последовательности:
  - ЦВПР
  - ICCV
  - ECCV
  - ВАКВ
  - НейрИПС
  - ICLR
  - ICML
  - АКМ ММ
  - СИГРАФ
  - АААИ
  - arXiv
  - Другие
Вопрос: Что означает Others ?
- Некоторые из следующих исследований (например, Stable Casacade ) не публикуют свой технический отчет по arXiv. Вместо этого они, как правило, ведут блог на своих официальных сайтах. Категория Others относится к такого рода исследованиям.

<Вернуться к началу>

Ссылки

Файл reference.bib суммирует ссылки bibtex на современные документы по рисованию изображений, широко используемые наборы данных и наборы инструментов. Основываясь на исходных ссылках, я внес следующие изменения, чтобы их результаты выглядели красиво в рукописях LaTeX :

Ссылки обычно строятся в форме author-etal-year-nickname . В частности, ссылки на наборы данных и наборы инструментов напрямую создаются как nickname , например imagenet .
В каждой ссылке все названия конференций/журналов преобразуются в аббревиатуры, например, Computer Vision and Pattern Recognition -> CVPR .
url , doi , publisher , organization , editor и series во всех ссылках удаляются.
pages всех ссылок добавляются, если они отсутствуют.
Все названия статей указаны в заглавном регистре. Кроме того, я добавил дополнительный {} , чтобы гарантировать, что регистр заголовка будет хорошо работать в некоторых конкретных шаблонах.

Если у вас есть другие требования к форматам ссылок, вы можете обратиться к оригинальным ссылкам на статьи, выполнив поиск по их названиям в DBLP или Google Scholar.

Примечание

Обратите внимание, что ссылки на homepage и в topic разделе могут повторяться в reference.bib . Лично я рекомендую использовать "Ctrl+F" / "Command+F" для поиска нужной ссылки BibTeX .

<Вернуться к началу>