Значительный прогресс был достигнут в области генерации изображений, но ограничения существующих моделей препятствовали единству моделей языкового зрения. В этой статье представлена новая модель текста к изображению, которая называется Meissonic, которая использует технологию неавторегрессивного моделирования изображений (MIM) для достижения современных моделей диффузии (таких как SDXL) с необходимыми только 1 миллиардами параметров. Значительное качество генерации изображений. Meissonic значительно повышает производительность и эффективность MIM благодаря своим архитектурным инновациям, стратегиям кодирования местоположения и оптимизированными условиями отбора проб и достигает генерации 1024 × 1024 изображений разрешения на потребительских графических процессорах.
В основе Мейссона лежит ряд архитектурных инноваций, стратегий кодирования передового положения и оптимизированных условий отбора проб, которые значительно повышают производительность и эффективность MIM. Кроме того, Meissonic также использует высококачественные учебные данные, интегрирует микро-кондиционирования, основанные на оценках предпочтений человека и принимает слои сжатия функций для дальнейшего усиления точности и разрешения изображения.
В отличие от крупных диффузионных моделей, таких как SDXL и DeepFloyd-XL, Meissonic имеет только 1 миллиард параметров, но он может генерировать высококачественные изображения с разрешением 1024 × 1024 и может работать на GPus потребительского уровня только с 8 ГБ видео памяти без дополнительной модели. оптимизация. Кроме того, Meissonic позволяет легко генерировать изображения с помощью сплошного цветового фона, что часто требует модели точной настройки или регулировки смещения шума в диффузионных моделях.
Для достижения эффективного обучения процесс обучения Meissonic разбит на четыре тщательно спроектированные этапы:
Первый этап: понимать основные понятия из массовых данных. Meissonic использует отфильтрованный набор данных LAION-2B для обучения с разрешением 256 × 256 для изучения основных концепций.
Этап 2: Совместите текст и изображения с длинными подсказками. Разрешение обучения улучшается до 512 × 512, и высококачественные пары текста с синтетическим изображением и внутренние наборы данных используются для улучшения способности модели понимать длинные описательные сигналы.
Стадия 3: Сжатие главной функции для достижения более высокого генерации разрешения. Внедряя слои сжатия признаков, Meissonic может плавно переходить с 512 × 512 до 1024 × 1024 генерации и обученные выбранным парам высококачественного текста изображения с высоким разрешением.
Стадия 4: Оптимизировать эстетическое образование с высоким разрешением. На этом этапе модель использует меньшую скорость обучения для точной настройки и добавляет показатели предпочтений человека в качестве микрокондружений для повышения производительности модели в создании высококачественных изображений.
Meissonic демонстрирует превосходную производительность и эффективность благодаря ряду количественных и качественных метрик, включая HPS, MPS, Женевальный сравнительный показатель и оценку GPT4O. По сравнению с DALL-E2 и SDXL, Мейссон достиг конкурентной работы как в результате деятельности человека, так и в выравнивании текста, а также показал ее эффективность.
Кроме того, Meissonic хорошо показал редактирование изображения с нулевым образцом. В наборе данных eMU-Edit Meisson тренировать или настраивать данные для редактирования изображения или наборы инструкций.
Адрес проекта: https://github.com/viiika/meissonic
Бумажный адрес: https://arxiv.org/pdf/2410.08261
Таким образом, Meissonic Models сделали значительные прорывы в области эффективности и качества генерации изображений, обеспечивая новые направления для разработки моделей будущих языковых зрения. Его легкие функции позволяют ему работать на потребительском оборудовании и демонстрировать его мощные возможности в редактировании изображений с нулевым образцом, с широкими перспективами приложений.