Сборник исследований по преобразованию текста в изображение
В этом репозитории GitHub собраны статьи и ресурсы, связанные с задачей преобразования текста в изображение (T2I).
Примечание
Этот документ служит homepage
всего репозитория GitHub. Статьи обобщены по различным направлениям исследований, годам публикации и конференциям.
В разделе topics
обобщены статьи, которые тесно связаны с генерацией T2I по различным свойствам, например, предпосылки генерации T2I, модели диффузии с другими методами (например, диффузионный преобразователь, LLM, Mamba и т. д.) и модели диффузии для других задач.
Если у вас есть какие-либо предложения по поводу этого репозитория, не стесняйтесь создавать новую задачу или запросы на включение.
Последние новости об этом репозитории GitHub перечислены ниже.
[ноябрь. 19 числа] Мы выпустили нашу последнюю статью под названием «StableV2V: Стабилизация согласованности формы при редактировании видео в видео» с открытым исходным кодом соответствующего кода, весов моделей и тестового теста DAVIS-Edit
. Не стесняйтесь проверить их по ссылкам!
Нажмите, чтобы увидеть дополнительную информацию.
- [Апрель. 26 числа] Обновите новую тему: Модели распространения соответствуют федеративному обучению. Подробности смотрите в разделе
topics
! - [Мар. 28 числа] Опубликован официальный список бумаг AAAI 2024 ! Официальные версии PDF-файлов и ссылки на BibTeX обновляются соответствующим образом.
- [Мар. 21 числа] Обновлен раздел
topics
. Целью этого раздела является предоставление списков статей, которые обобщены в соответствии с другими свойствами моделей диффузии , например, методы на основе диффузионного преобразователя, модели диффузии для НЛП, модели диффузии, интегрированные с LLM и т. д. Соответствующие ссылки на эти статьи также заключаются в reference.bib
. - [Мар. 7-е] Обновлены все доступные документы и ссылки CVPR, ICLR и AAAI 2024 .
- [Мар. 1-е] Кратко представлены веб-сайты готовых продуктов и наборов инструментов для преобразования текста в изображение .
Содержание
- Продукты
- Списки дел
- Статьи
- Обзорные документы
- Генерация текста в изображение
- 2024 год
- 2023 год
- 2022 год
- 2021 год
- 2020 год
- Условное преобразование текста в изображение
- 2024 год
- 2023 год
- 2022 год
- Персонализированное преобразование текста в изображение
- Редактирование изображений с текстовым управлением
- 2024 год
- 2023 год
- 2022 год
- Генерация текстового изображения
- Наборы данных
- Наборы инструментов
- Вопросы и ответы
- Ссылки
- Звездная история
Списки дел
- Опубликованные статьи о конференциях
- Регулярное обслуживание препринтов arXiv и пропущенных статей
<Вернуться к началу>
Продукты
Имя | Год | Веб-сайт | Специальности |
---|
Стабильная диффузия 3 | 2024 год | связь | Стабильная диффузия на основе диффузионного трансформатора |
Стабильное видео | 2024 год | связь | Качественные изображения с высоким разрешением |
ДАЛЛ-И 3 | 2023 год | связь | Сотрудничать с ChatGPT |
Идеограмма | 2023 год | связь | Текстовые изображения |
Детская площадка | 2023 год | связь | Астетические изображения |
HiDream.ai | 2023 год | связь | - |
Даштун | 2023 год | связь | Преобразование текста в комикс |
ШЕЕ | 2023 год | связь | WHEE — это онлайн-инструмент для создания искусственного интеллекта, который можно применять для генерации T2I, генерации I2I, SR, закрашивания, закрашивания, изменения изображения, виртуальной примерки и т. д. |
Вега ИИ | 2023 год | связь | Vega AI — это онлайн-инструмент для создания искусственного интеллекта, который можно применять для генерации T2I, генерации I2I, SR, генерации T2V, генерации I2V и т. д. |
Уцзе ИИ | 2022 год | связь | Китайское название — «无界AI», предлагающее ресурсы и онлайн-услуги AIGC. |
Середина пути | 2022 год | связь | Мощный инструмент генерации с закрытым исходным кодом |
<Вернуться к началу>
Статьи
Обзорные документы
- Генерация текста в изображение
- 2024 год
- Обзоры вычислительной техники ACM
- Модели диффузии: комплексный обзор методов и приложений [статья]
- 2023 год
- ТПАМИ
- Модели диффузии в зрении: обзор [Документ] [Код]
- arXiv
- Модели диффузии текста в изображение в генеративном искусственном интеллекте: обзор [статья]
- Современное состояние моделей диффузии для визуальных вычислений [статья]
- 2022 год
- arXiv
- Эффективные модели распространения зрения: обзор [статья]
- Условное преобразование текста в изображение
- 2024 год
- arXiv
- Управляемая генерация с помощью моделей диффузии текста в изображение: обзор [статья]
- Редактирование изображений с текстовым управлением
- 2024 год
- arXiv
- Редактирование изображений на основе модели диффузии: обзор [Документ] [Код]
<Вернуться к началу>
Генерация текста в изображение
- 2024 год
- ЦВПР
- DistriFusion: распределенный параллельный вывод для моделей диффузии высокого разрешения [Документ] [Код]
- InstanceDiffusion: управление на уровне экземпляра для создания изображений [Бумага] [Код] [Проект]
- ECLIPSE: ресурсоэффективное преобразование текста в изображение для генерации изображений [Бумага] [Код] [Проект] [Демо]
- Instruct-Imagen: генерация изображений с помощью мультимодальных инструкций [документ]
- Изучение непрерывных 3D-слов для преобразования текста в изображение [Бумага] [Код]
- HanDiffuser: преобразование текста в изображение с реалистичным внешним видом рук [статья]
- Богатая обратная связь между людьми для преобразования текста в изображение [статья]
- MarkovGen: структурированное прогнозирование для эффективного преобразования текста в изображение [статья]
- Помощник по настройке для преобразования текста в изображение [бумага]
- ADI: изучение распутанных идентификаторов для создания персонализированного преобразования текста в изображение [документ] [проект]
- UFOGen: вы пересылаете один раз крупномасштабную генерацию текста в изображение с помощью диффузионных GAN [бумага]
- Самообнаружение интерпретируемых скрытых направлений диффузии для ответственной генерации текста в изображение [статья]
- Индивидуальные концепции: улучшение преобразования текста в изображение с помощью персонализированного переписывания подсказок [Документ] [Код]
- CoDi: условная диффузионная дистилляция для более высокой точности и ускорения генерации изображений [Документ] [Код] [Проект] [Демо]
- Генерация изображений произвольного масштаба и повышенная дискретизация с использованием модели скрытой диффузии и неявного нейронного декодера [статья]
- На пути к эффективному использованию человекоцентрических априорных моделей в диффузионных моделях для создания текстовых изображений человека [статья]
- ElasticDiffusion: генерация изображений произвольного размера без обучения [Бумага] [Код] [Проект] [Демо]
- CosmicMan: базовая модель преобразования текста в изображение для людей [Документ] [Код] [Проект]
- PanFusion: преобразование стабильной диффузии текста в создание панорамных изображений на 360° [Бумага] [Код] [Проект]
- Интеллектуальный Гримм: открытое визуальное повествование с помощью скрытых моделей диффузии [Документ] [Код] [Проект]
- О масштабируемости генерации текста в изображение на основе диффузии [статья]
- MuLAN: многослойный аннотированный набор данных для управляемого преобразования текста в изображение [Документ] [Проект] [Набор данных]
- Изучение многомерных человеческих предпочтений при преобразовании текста в изображение [статья]
- Динамическая оптимизация подсказок для преобразования текста в изображение [бумага]
- Модели распространения обучения для создания разнообразных изображений с помощью обучения с подкреплением [статья]
- Состязательный текст для непрерывной генерации изображений [Документ] [Проект] [Видео]
- EmoGen: генерация контента эмоциональных изображений с помощью моделей диффузии текста в изображение [Документ] [Код]
- ECCV
- Объединение различных языковых моделей и моделей генеративного видения для преобразования текста в изображение [Документ] [Код] [Проект]
- Исследование заземления на уровне фраз с помощью модели диффузии текста в изображение [Документ] [Код]
- Правильное решение: улучшение пространственной согласованности в моделях преобразования текста в изображение [Документ] [Код] [Проект]
- Навигация по порождающему смещению текста в изображение в индийских языках [Документ] [Проект]
- Защитите модели диффузии текста в изображение с помощью инверсии обратной связи от человека [статья]
- Изготовление реальности и фантазии: создание сцен с оперативной интерпретацией с помощью LLM [Документ] [Код] [Проект] [Набор данных]
- Надежное и эффективное стирание концепций моделей диффузии текста в изображение [Документ] [Код]
- Исследование заземления на уровне фраз с помощью модели диффузии текста в изображение [Документ] [Код]
- StyleTokenizer: определение стиля изображения с помощью одного экземпляра для управления моделями диффузии [Документ] [Код]
- PEA-Diffusion: адаптер с эффективными параметрами и дистилляцией знаний при генерации неанглоязычного текста в изображение [бумага] [код]
- Перекосы в пространстве явлений мешают обобщению при преобразовании текста в изображение [Документ] [Код]
- Parrot: оптимальная по Парето структура обучения с множественным вознаграждением и подкреплением для преобразования текста в изображение [документ]
- Объединение различных языковых моделей и моделей генеративного видения для преобразования текста в изображение [Документ] [Код] [Проект]
- MobileDiffusion: мгновенное преобразование текста в изображение на мобильных устройствах [бумага]
- PixArt-Σ: обучение диффузионного преобразователя от слабого до сильного для преобразования текста в изображение 4K [Документ] [Код] [Проект]
- CogView3: более точное и быстрое преобразование текста в изображение с помощью Relay Diffusion [Документ] [Код]
- ICLR
- Исправленные модели диффузии с шумоподавлением для синтеза изображений высокого разрешения [Документ] [Код]
- Relay Diffusion: унификация процесса диффузии между разрешениями для синтеза изображений [Документ] [Код]
- SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения [Документ] [Код]
- Compose and Conquer: синтез составных изображений 3D на основе диффузии с учетом глубины [Документ] [Код]
- PixArt-α: быстрое обучение диффузионного преобразователя для фотореалистичного синтеза текста в изображение [Документ] [Код] [Проект] [Демо]
- СИГРАФ
- RGB↔X: разложение и синтез изображения с использованием моделей диффузии с учетом материалов и освещения [Документ] [Проект]
- АААИ
- Семантическое увеличение данных для синтеза текста в изображение [Документ]
- Генерация текста в изображение для абстрактных концепций [статья]
- arXiv
- Самостоятельная точная настройка моделей диффузии для преобразования текста в изображение [статья]
- Ролевая игра: Освоение диффузии текста в изображение: повторение, планирование и генерация с помощью мультимодальных LLM [Документ] [Код]
- Playground v2.5: Три идеи по улучшению эстетического качества при преобразовании текста в изображение [Документ] [Код]
- ResAdapter: Адаптер доменно-согласованного разрешения для диффузионных моделей [Документ] [Код] [Проект]
- InstantID: генерация с нулевым шансом сохранения личности за считанные секунды [Документ] [Код] [Проект] [Демо]
- PIXART-δ: быстрое и управляемое создание изображений с помощью моделей скрытой согласованности [Документ] [Код]
- ELLA: оснащение диффузионных моделей LLM для улучшенного семантического выравнивания [Документ] [Код] [Проект]
- Text2Street: управляемое преобразование текста в изображение для просмотра улиц [Документ]
- LayerDiffuse: диффузия слоев прозрачного изображения с использованием скрытой прозрачности [Бумага] [Код]
- SD3-Turbo: быстрый синтез изображений высокого разрешения с помощью скрытой состязательной диффузионной дистилляции [статья]
- StreamMultiDiffusion: интерактивная генерация в реальном времени с семантическим контролем на основе регионов [документ] [код]
- SVGDreamer: генерация SVG с текстовым сопровождением и диффузионной моделью [Документ] [Код] [Проект]
- PromptCharm: генерация текста в изображение посредством мультимодальных подсказок и уточнений [бумага]
- YOSO: Вы пробуете только один раз: укрощение одношагового синтеза текста в изображение с помощью самокооперативных диффузионных GAN [Документ] [Код]
- SingDiffusion: решение особенностей в конечных точках временных интервалов в моделях диффузии [Документ] [Код]
- CoMat: согласование модели распространения текста в изображение с сопоставлением концепции изображения в тексте [Документ] [Код] [Проект]
- StoryDiffusion: постоянное внимание к себе для создания изображений и видео на большие расстояния [Документ] [Код] [Проект] [Демо]
- Лицевой адаптер для предварительно обученных диффузионных моделей с детализированным идентификатором и контролем атрибутов [Документ] [Проект]
- LinFusion: 1 графический процессор, 1 минута, изображение 16 КБ [Бумага] [Код] [Проект] [Демо]
- OmniGen: унифицированное создание изображений [бумага] [код]
- COMPASS: Улучшение пространственного понимания в моделях диффузии текста в изображение [Документ] [Код]
- Другие
- Стабильный каскад [Блог] [Код]
<Вернуться к началу>
- 2023 год
- ЦВПР
- GigaGAN: Масштабирование GAN для синтеза текста в изображение [Документ] [Воспроизведенный код] [Проект] [Видео]
- ERNIE-ViLG 2.0: Улучшение модели распространения текста в изображение с помощью группы экспертов по шумоподавлению с расширенными знаниями [документ]
- Смещенная диффузия для генерации текста в изображение [Бумага] [Код]
- GALIP: Генеративно-состязательные CLIP для синтеза текста в изображение [Документ] [Код]
- Специализированное распространение: эффективная точная настройка моделей распространения текста в изображение по принципу «включай и работай» для изучения любого невидимого стиля [Документ] [Код]
- На пути к проверяемой и воспроизводимой человеческой оценке преобразования текста в изображение [статья]
- RIATIG: надежная и незаметная состязательная генерация текста в изображение с помощью естественных подсказок [Документ] [Код]
- ICCV
- DiffFit: открываем возможность переноса моделей большой диффузии посредством простой точной настройки с эффективным использованием параметров [Документ] [Код] [Демо]
- НейрИПС
- ImageReward: изучение и оценка человеческих предпочтений при преобразовании текста в изображение [Документ] [Код]
- РАФАЭЛЬ : Генерация текста в изображение с помощью большого количества путей распространения [Документ] [Проект]
- Лингвистическая привязка в моделях диффузии: улучшение соответствия атрибутов посредством выравнивания карты внимания [Документ] [Код]
- DenseDiffusion: плотная генерация текста в изображение с модуляцией внимания [Документ] [Код]
- ICLR
- Руководство по структурированной диффузии, не требующее обучения, для композиционного синтеза текста в изображение [Документ] [Код]
- ICML
- StyleGAN-T: раскрытие возможностей GAN для быстрого крупномасштабного синтеза текста в изображение [бумага] [код] [проект] [видео]
- Muse: генерация текста в изображение с помощью генеративных преобразователей в маске [Документ] [Воспроизведенный код] [Проект]
- UniDiffusers: один трансформатор подходит для всех распределений в мультимодальной диффузии в масштабе [Документ] [Код]
- АКМ ММ
- SUR-адаптер: улучшение предварительно обученных моделей диффузии текста в изображение с помощью больших языковых моделей [Документ] [Код]
- ControlStyle: создание стилизованных изображений на основе текста с использованием априорных методов диффузии [статья]
- СИГРАФ
- Attend-and-Excite: основанное на внимании семантическое руководство для моделей диффузии текста в изображение [Документ] [Код] [Проект] [Демо]
- arXiv
- P+: расширенное текстовое преобразование при преобразовании текста в изображение [статья]
- SDXL-Turbo: Состязательная диффузионная дистилляция [Документ] [Код]
- Wuerstchen: эффективная архитектура для крупномасштабных моделей диффузии текста в изображение [документ] [код]
- StreamDiffusion: решение на уровне конвейера для интерактивной генерации в реальном времени [Документ] [Проект]
- ParaDiffusion: генерация абзацев в изображения с помощью модели диффузии, обогащенной информацией [Документ] [Код]
- Другие
- DALL-E 3: Улучшение создания изображений с помощью более качественных подписей [документ]
<Вернуться к началу>
- 2022 год
- ЦВПР
- Стабильная диффузия: синтез изображений высокого разрешения с использованием моделей скрытой диффузии [Документ] [Код] [Проект]
- Модель векторной квантовой диффузии для синтеза текста в изображение [Документ] [Код]
- DF-GAN: простая и эффективная основа для синтеза текста в изображение [Документ] [Код]
- LAFITE: На пути к безязычному обучению преобразованию текста в изображение [Документ] [Код]
- Синтез текста в изображение на основе объектно-управляемого преобразователя совместного декодирования [Документ]
- StyleT2I: К композиционному и высокоточному синтезу текста в изображение [Документ] [Код]
- ECCV
- Make-A-Scene: генерация текста в изображение на основе сцены с использованием человеческих приоритетов [Документ] [Код] [Демо]
- Трассировка управляемого текста для создания изображения [бумага]
- Улучшенное создание маскированных изображений с помощью Token-Critic [бумага]
- VQGAN-CLIP: генерация изображений открытого домена и манипулирование ими с использованием естественного языка [документ] [код]
- ТИСЭ: Пакет показателей для оценки синтеза текста в изображение [Документ] [Код]
- StoryDALL-E: Адаптация предварительно обученных преобразователей текста в изображение для продолжения истории [Документ] [Код] [Демо]
- НейрИПС
- CogView2: более быстрое и лучшее преобразование текста в изображение с помощью иерархических преобразователей [Документ] [Код]
- Изображение: Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка [Документ] [Воспроизведенный код] [Проект] [ Изображение 2 ]
- АКМ ММ
- Adma-GAN: GAN с расширенной памятью на основе атрибутов для генерации текста в изображение [Документ] [Код]
- Генерация фонового макета и передача знаний об объектах для преобразования текста в изображение [бумага]
- DSE-GAN: Генерирующая состязательная сеть динамической семантической эволюции для преобразования текста в изображение [Документ]
- AtHom: два расходящихся внимания, стимулируемые гомоморфным обучением синтезу текста в изображение [статья]
- arXiv
- DALLE-2: Иерархическая генерация изображений с условным текстом с помощью CLIP Latents [Документ]
- PITI: предварительное обучение — это все, что вам нужно для перевода изображения в изображение [Документ] [Код]
<Вернуться к началу>
- 2021 год
- ICCV
- DAE-GAN: динамический GAN с учетом аспектов для синтеза текста в изображение [Документ] [Код]
- НейрИПС
- CogView: освоение преобразования текста в изображение с помощью преобразователей [Документ] [Код] [Демо]
- UFC-BERT: унификация многомодальных элементов управления для условного синтеза изображений [документ]
- ICML
- DALLE-1: Генерация текста в изображение с нулевым разрешением [бумага] [воспроизведенный код]
- АКМ ММ
- Циклически согласованный обратный GAN для синтеза текста в изображение [Документ]
- R-GAN: изучение человеческого способа разумного синтеза текста в изображение с помощью генеративно-состязательных сетей [документ]
<Вернуться к началу>
- 2020 год
- АКМ ММ
- Синтез текста в изображение с помощью эстетического макета [бумага]
<Вернуться к началу>
Условное преобразование текста в изображение
- 2024 год
- ЦВПР
- МЕСТО: Адаптивный макет и семантическое слияние для семантического синтеза изображений [Документ]
- Однократный синтез стилизованного изображения с учетом структуры [бумага]
- Обоснованный синтез текста в изображение с перефокусировкой внимания [Документ] [Код] [Проект] [Демо]
- Скрытая диффузия от грубого до мелкого для синтеза изображений человека с наведением позы [Бумага] [Код]
- DetDiffusion: синергия генеративных и перцептивных моделей для улучшения генерации и восприятия данных [документ]
- CAN: нейронная сеть с учетом состояния для контролируемой генерации изображений [документ]
- SceneDiffusion: переместите что угодно с помощью многоуровневого распределения сцены [бумага]
- Zero-Painter: управление макетом без обучения для синтеза текста в изображение [Бумага] [Код]
- MIGC: Контроллер генерации нескольких экземпляров для синтеза текста в изображение [Бумага] [Код] [Проект]
- FreeControl: пространственное управление любой моделью диффузии текста в изображение, не требующее обучения, с любыми условиями [Документ] [Код] [Проект]
- ECCV
- PrecisionControl: улучшение моделей диффузии текста в изображение с помощью детального управления атрибутами [Бумага] [Код] [Проект]
- AnyControl: создайте свою иллюстрацию с помощью универсального управления генерацией текста в изображение [Бумага] [Код]
- ICLR
- Улучшение синтеза изображений с наведением по позе с помощью моделей прогрессивной условной диффузии [Документ] [Код]
- ВАКВ
- Управление макетом без обучения и управление перекрестным вниманием [Бумага] [Код] [Проект] [Демо]
- АААИ
- SSMG: Модель диффузии, управляемая пространственно-семантической картой, для генерации макета в изображение произвольной формы [Документ]
- Композиционный синтез текста в изображение с управлением картой внимания диффузионных моделей [Документ] [Код]
- arXiv
- DEADiff: эффективная модель диффузии стилизации с распутанными представлениями [статья]
- InstantStyle: бесплатный обед по сохранению стиля при преобразовании текста в изображение [Документ] [Код] [Проект]
- ControlNet++: Улучшение условных элементов управления с помощью эффективной обратной связи по согласованности [Документ] [Проект]
- Hunyuan-DiT: мощный диффузионный преобразователь с несколькими разрешениями и детальным пониманием китайского языка [Документ] [Код] [Проект]
- DialogGen: Мультимодальная интерактивная диалоговая система для многоходовой генерации текста в изображение [Документ] [Код] [Проект]
- ControlNeXt: мощное и эффективное управление созданием изображений и видео [Документ] [Код] [Проект]
- UniPortrait: унифицированная платформа для персонализации изображений одного и нескольких людей с сохранением идентичности [Документ] [Код] [Проект] [Демо]
- OmniControl: минимальное и универсальное управление диффузионным трансформатором [Документ] [Код] [Демо]
- UnZipLoRA: разделение контента и стиля из одного изображения [Документ] [Проект]
- CtrLoRA: расширяемая и эффективная платформа для управляемой генерации изображений [документ] [код]
- Генерация текста в изображение с учетом региона посредством жесткой привязки и мягкого уточнения [Бумага] [Код]
<Вернуться к началу>
- 2023 год
- ЦВПР
- GLIGEN: Генерация текста в изображение с открытым набором [Бумага] [Код] [Проект] [Демо] [Видео]
- Генерация авторегрессионного изображения с использованием остаточного квантования [Бумага] [Код]
- SpaText: пространственно-текстовое представление для управляемой генерации изображений [Документ] [Проект] [Видео]
- Генерация текста в изображение с помощью GAN с семантико-пространственной ориентацией [Документ]
- ReCo: генерация текста в изображение с контролем региона [бумага] [код]
- LayoutDiffusion: управляемая модель диффузии для создания макета в изображение [Документ] [Код]
- ICCV
- ControlNet: добавление условного управления к моделям диффузии текста в изображение [Документ] [Код]
- SceneGenie: модели диффузии, управляемые графом сцены, для синтеза изображений [Документ] [Код]
- ZestGuide: Кондиционирование пространственного макета с нулевым выстрелом для моделей диффузии текста в изображение [бумага]
- ICML
- Composer: творческий и управляемый синтез изображений с компонуемыми условиями [Документ] [Код] [Проект]
- MultiDiffusion: объединение путей распространения для контролируемой генерации изображений [Бумага] [Код] [Видео] [Проект] [Демо]
- СИГРАФ
- Модели диффузии текста в изображение на основе эскизов [Документ] [Воспроизведенный код] [Проект]
- НейрИПС
- Uni-ControlNet: комплексное управление моделями диффузии текста в изображение [Документ] [Код] [Проект]
- Быстрое распространение: контекстное обучение доступно для моделей диффузии [Документ] [Код] [Проект]
- ВАКВ
- Больше контроля бесплатно! Синтез изображений с руководством по семантической диффузии [статья]
- АКМ ММ
- LayoutLLM-T2I: получение рекомендаций по макету от LLM для преобразования текста в изображение [бумага]
- arXiv
- T2I-адаптер: обучающие адаптеры для получения более управляемых возможностей для моделей диффузии текста в изображение [Документ] [Код] [Демо]
- BLIP-Diffusion: предварительно обученное представление субъектов для управляемого преобразования текста в изображение и редактирования [Документ] [Код]
- Руководство по диффузии с поздними ограничениями для управляемого синтеза изображений [Документ] [Код]
- 2022 год
- ICLR
- SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [Документ] [Код] [Проект]
<Вернуться к началу>
Персонализированное преобразование текста в изображение
- 2024 год
- ЦВПР
- Перекрестная инициализация для персонализированной генерации текста в изображение [бумага]
- Когда StyleGAN встречает стабильную диффузию: адаптер W+ для создания персонализированных изображений [Бумага] [Код] [Проект]
- Генерация изображений с согласованным стилем посредством общего внимания [Документ] [Код] [Проект]
- InstantBooth: персонализированное преобразование текста в изображение без тонкой настройки во время тестирования [Документ] [Проект]
- Высокоточный синтез субъектно-изображенных изображений, ориентированный на человека [Документ]
- RealCustom: Сужение реального текстового слова для настройки преобразования текста в изображение в открытом домене в реальном времени [Документ] [Проект]
- DisenDiff: калибровка внимания для четкой персонализации преобразования текста в изображение [бумага] [код]
- FreeCustom: создание персонализированных изображений без настройки для мультиконцептуальной композиции [Документ] [Код] [Проект]
- Персонализированные остатки для концептуальной генерации текста в изображение [бумага]
- Улучшение синтеза субъектно-ориентированных изображений с помощью субъектно-агностического руководства [статья]
- JeDi: модели диффузии совместных изображений для создания персонализированного преобразования текста в изображение без точной настройки [статья]
- Противодействие созданию персонализированного преобразования текста в изображение с помощью водяных знаков влияния [статья]
- ECCV
- Будьте собой: ограниченное внимание для многопредметной генерации текста в изображение [Документ] [Проект]
- Мощно и гибко: персонализированное преобразование текста в изображение с помощью обучения с подкреплением [Документ] [Код]
- TIGC: настройка изображения без настройки с помощью изображений и текстовых указаний [Документ] [Код] [Проект]
- MasterWeaver: укрощение возможности редактирования и идентификации лица для персонализированного преобразования текста в изображение [Документ] [Код] [Проект]
- АААИ
- Разделенные текстовые встраивания для создания персонализированных изображений [бумага]
- arXiv
- FlashFace: персонализация изображения человека с высокоточным сохранением личности [Документ] [Код] [Проект]
- MoMA: мультимодальный адаптер LLM для быстрого создания персонализированных изображений [бумага]
- IDAdapter: изучение смешанных функций для персонализации моделей преобразования текста в изображение без настройки [бумага]
- CoRe: Обучение контекстно-регуляризованному встраиванию текста для персонализации преобразования текста в изображение [Документ]
- Представьте себе: создание персонализированных изображений без настройки [Документ] [Проект]
- 2023 год
- ЦВПР
- Custom Diffusion: мультиконцептуальная настройка распространения текста в изображение [Документ] [Код] [Проект]
- DreamBooth: точная настройка моделей диффузии текста в изображение для субъектно-ориентированной генерации [Документ] [Код] [Проект]
- ICCV
- ELITE: кодирование визуальных концепций в текстовые встраивания для индивидуального преобразования текста в изображение [Документ] [Код]
- ICLR
- Текстовая инверсия: изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии [Документ] [Код] [Проект]
- СИГРАФ
- Break-A-Scene: извлечение нескольких концепций из одного изображения [Документ] [Код]
- Настройка домена на основе кодировщика для быстрой персонализации моделей преобразования текста в изображение [Документ] [Проект]
- LayerDiffusion: многоуровневое редактирование контролируемых изображений с помощью моделей диффузии [бумага]
- arXiv
- DreamTuner: одного изображения достаточно для тематической генерации [Документ] [Проект]
- PhotoMaker: настройка реалистичных фотографий людей с помощью встраивания сложенных идентификаторов [бумага] [код]
- IP-адаптер: адаптер подсказки изображения, совместимый с текстом, для моделей диффузии текста в изображение [Бумага] [Код] [Проект]
- FastComposer: генерация многообъектных изображений без настройки с локализованным вниманием [Документ] [Код]
<Вернуться к началу>
Редактирование изображений с помощью текста
- 2024 год
- ЦВПР
- InfEdit: редактирование изображений без инверсии с использованием естественного языка [Документ] [Код] [Проект]
- К пониманию перекреста и внимания к себе в стабильной диффузии для редактирования изображений с текстовым управлением [статья]
- Двойной абдуктивный контрфактический вывод для редактирования текстовых изображений [Документ] [Код]
- Сосредоточьтесь на своей инструкции: детальное редактирование изображений с несколькими инструкциями с помощью модуляции внимания [Бумага] [Код]
- Оценка контрастного шумоподавления для редактирования изображений со скрытой диффузией под управлением текста [бумага]
- DragDiffusion: использование моделей диффузии для интерактивного точечного редактирования изображений [Документ] [Код]
- DiffEditor: повышение точности и гибкости редактирования изображений на основе диффузии [документ]
- FreeDrag: перетаскивание элементов для надежного редактирования изображений по точкам [Бумага] [Код]
- Редактирование изображений на основе текста с помощью обучаемых областей [Бумага] [Код] [Проект] [Видео]
- LEDITS++: безграничное редактирование изображений с использованием моделей преобразования текста в изображение [Бумага] [Код] [Проект] [Демо]
- SmartEdit: изучение сложного редактирования изображений на основе инструкций с помощью больших языковых моделей [Документ] [Код] [Проект]
- Редактировать один для всех: интерактивное пакетное редактирование изображений [Бумага] [Код] [Проект]
- DiffMorpher: раскрытие возможностей диффузионных моделей для морфинга изображений [Документ] [Код] [Проект] [Демо]
- TiNO-Edit: оптимизация временного шага и шума для надежного редактирования изображений на основе диффузии [Документ] [Код]
- Человек на месте: создание ассоциативных карт скелета-наведения для редактирования изображений взаимодействия человека и объекта [Документ] [Проект] [Код]
- Редактирование ссылающихся изображений: редактирование изображений на уровне объекта с помощью ссылающихся выражений [Бумага]
- Оперативное расширение для самостоятельного манипулирования изображениями с текстовым управлением [бумага]
- Дьявол кроется в деталях: StyleFeatureEditor для детальной инверсии StyleGAN и высококачественного редактирования изображений [Бумага] [Код]
- ECCV
- RegionDrag: быстрое редактирование изображений на основе регионов с помощью диффузионных моделей [Документ] [Код] [Проект] [Демо]
- TurboEdit: мгновенное редактирование изображений на основе текста [Документ] [Проект]
- InstructGIE: На пути к универсальному редактированию изображений [Статья]
- StableDrag: стабильное перетаскивание для редактирования изображений по точкам [Бумага]
- Эта-инверсия: разработка оптимальной эта-функции для редактирования реальных изображений на основе диффузии [Документ] [Код] [Проект]
- SwapAnything: включение произвольной замены объектов при персонализированном редактировании изображений [Бумага] [Код] [Проект]
- Наведение и изменение масштаба: механизм самоуправления для эффективного редактирования реального изображения без настройки [статья]
- FreeDiff: прогрессивное усечение частоты для редактирования изображений с помощью моделей диффузии [Документ] [Код]
- Ленивый диффузионный преобразователь для интерактивного редактирования изображений [Документ] [Проект]
- ByteEdit: повышение, соответствие и ускорение генеративного редактирования изображений [Документ] [Проект]
- ICLR
- Руководство по редактированию изображений на основе инструкций с помощью мультимодальных моделей большого языка [Документ] [Код] [Проект]
- Благословение случайности: SDE превосходит ODE в редактировании изображений на основе диффузии [Документ] [Код] [Проект]
- Управление движением: редактирование изображений на основе диффузии с помощью дифференцируемых средств оценки движения [Документ] [Код] [Проект]
- Объектно-ориентированная инверсия и повторная сборка для редактирования изображений [Бумага] [Код] [Проект]
- Руководство по карте шума: инверсия с пространственным контекстом для редактирования реальных изображений [статья]
- АААИ
- Не требующее настройки управление с улучшенной инверсией для единообразного редактирования изображений [бумага]
- BARET: редактирование реального изображения на основе сбалансированного внимания с помощью инверсии целевого текста [бумага]
- Ускорение редактирования текста в изображение с помощью метода разреженного диффузионного вывода с поддержкой кэша [Документ]
- Высокоточное редактирование изображений на основе диффузии [бумага]
- AdapEdit: Алгоритм адаптивного редактирования с пространственно-временным управлением для редактирования изображений с учетом непрерывности текста [бумага]
- TexFit: редактирование модных изображений на основе текста с помощью диффузионных моделей [бумага]
- arXiv
- Предмет стоит подсказки: универсальное редактирование изображений с распутанным контролем [Бумага] [Код]
- Одномерный адаптер, чтобы управлять всеми: концепции, модели диффузии и приложения для стирания [Документ] [Код] [Проект]
- EditWorld: моделирование мировой динамики для редактирования изображений по инструкциям [Документ] [Код] [Проект]
- ReasonPix2Pix: набор данных для рассуждения инструкций для расширенного редактирования изображений [бумага]
- FlowEdit: редактирование текста без инверсии с использованием предварительно обученных моделей потока [Бумага] [Код] [Проект] [Демо]
- 2023 год
- ЦВПР
- Раскрытие возможности распутывания в моделях диффузии текста в изображение [Документ] [Код]
- SINE: редактирование изображений SINgle с помощью моделей диффузии текста в изображение [Бумага] [Код]
- Imagic: редактирование реальных изображений на основе текста с помощью диффузионных моделей [статья]
- InstructPix2Pix: учимся следовать инструкциям по редактированию изображений [Бумага] [Код] [Набор данных] [Проект] [Демо]
- Инверсия нулевого текста для редактирования реальных изображений с использованием моделей управляемой диффузии [Документ] [Код]
- ICCV
- MasaCtrl: взаимный контроль самоконтроля без настройки для согласованного синтеза и редактирования изображений [Документ] [Код] [Проект] [Демо]
- Локализация изменений формы на уровне объекта с помощью моделей диффузии текста в изображение [Документ] [Код] [Проект] [Демо]
- ICLR
- SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений [Документ] [Код] [Проект]
- 2022 год
- ЦВПР
- DiffusionCLIP: модели диффузии на основе текста для надежного манипулирования изображениями [Документ] [Код]
<Вернуться к началу>
Генерация текстового изображения
- 2024 год
- arXiv
- AnyText: многоязычное визуальное создание и редактирование текста [Документ] [Код] [Проект]
- ЦВПР
- SceneTextGen: синтез текстовых изображений сцены, не зависящий от макета, с интегрированным распространением на уровне символов и контекстной согласованностью [документ]
<Вернуться к началу>
Наборы данных
- Microsoft COCO: общие объекты в контексте [документ] [набор данных]
- Концептуальные подписи: очищенный гипернимированный набор данных изображений с альтернативным текстом для автоматического создания подписей к изображениям [Документ] [Набор данных]
- LAION-5B: Открытый крупномасштабный набор данных для обучения графически-текстовых моделей следующего поколения [Документ] [Набор данных]
- PartiPrompts: масштабирование авторегрессионных моделей для создания содержательного преобразования текста в изображение [Документ] [Набор данных] [Проект]
<Вернуться к началу>
Наборы инструментов
Имя | Веб-сайт | Описание |
---|
Стабильный веб-интерфейс диффузии | связь | Построен на основе Gradio, развертывается локально для запуска контрольных точек Stable Diffusion, весов LoRA, весов ControlNet и т. д. |
Стабильная Diffusion WebUI-кузница | связь | Построен на основе Gradio, развертывается локально для запуска контрольных точек Stable Diffusion, весов LoRA, весов ControlNet и т. д. |
Фукус | связь | Создано на основе Gradio, автономно, с открытым исходным кодом и бесплатно. Ручная настройка не требуется, и пользователям нужно только сосредоточиться на подсказках и изображениях. |
Удобный интерфейс | связь | Развертывается локально, чтобы обеспечить возможность настройки рабочих процессов с помощью Stable Diffusion. |
Чивитаи | связь | Веб-сайты сообщества для контрольных точек стабильной диффузии и LoRA |
<Вернуться к началу>
Вопросы и ответы
- Вопрос: Последовательность конференций в этом списке статей?
- Этот список статей организован в следующей последовательности:
- ЦВПР
- ICCV
- ECCV
- ВАКВ
- НейрИПС
- ICLR
- ICML
- АКМ ММ
- СИГРАФ
- АААИ
- arXiv
- Другие
- Вопрос: Что означает
Others
?- Некоторые из следующих исследований (например,
Stable Casacade
) не публикуют свой технический отчет по arXiv. Вместо этого они, как правило, ведут блог на своих официальных сайтах. Категория Others
относится к такого рода исследованиям.
<Вернуться к началу>
Ссылки
Файл reference.bib
суммирует ссылки bibtex на современные документы по рисованию изображений, широко используемые наборы данных и наборы инструментов. Основываясь на исходных ссылках, я внес следующие изменения, чтобы их результаты выглядели красиво в рукописях LaTeX
:
- Ссылки обычно строятся в форме
author-etal-year-nickname
. В частности, ссылки на наборы данных и наборы инструментов напрямую создаются как nickname
, например imagenet
. - В каждой ссылке все названия конференций/журналов преобразуются в аббревиатуры, например,
Computer Vision and Pattern Recognition -> CVPR
. -
url
, doi
, publisher
, organization
, editor
и series
во всех ссылках удаляются. -
pages
всех ссылок добавляются, если они отсутствуют. - Все названия статей указаны в заглавном регистре. Кроме того, я добавил дополнительный
{}
, чтобы гарантировать, что регистр заголовка будет хорошо работать в некоторых конкретных шаблонах.
Если у вас есть другие требования к форматам ссылок, вы можете обратиться к оригинальным ссылкам на статьи, выполнив поиск по их названиям в DBLP или Google Scholar.
Примечание
Обратите внимание, что ссылки на homepage
и в topic
разделе могут повторяться в reference.bib
. Лично я рекомендую использовать "Ctrl+F" / "Command+F"
для поиска нужной ссылки BibTeX
.
<Вернуться к началу>
Звездная история
<Вернуться к началу>