Редактор Downcodes познакомит вас с Meissonic, моделью преобразования текста в изображение всего с 1 миллиардом параметров, которая может генерировать изображения высокой четкости 1024×1024. Он преодолевает ограничения таких моделей, как Stable Diffusion, и поднимает технологию неавторегрессионного моделирования изображений по маске (MIM) на новый уровень. Его производительность и эффективность сравнимы с лучшими диффузионными моделями, такими как SDXL. Инновации Meissonic заключаются в уникальном архитектурном дизайне, усовершенствованной стратегии позиционного кодирования и оптимизированных условиях выборки, которые позволяют ему работать на графических процессорах потребительского уровня без дополнительной оптимизации. Еще более удивительным является то, что он может легко создавать изображения со сплошным цветным фоном, что обычно требует сложной настройки в моделях диффузии.
В основе Meissonic лежит ряд архитектурных инноваций, усовершенствованные стратегии кодирования положения и оптимизированные условия отбора проб. Эти улучшения значительно повышают производительность и эффективность MIM. Кроме того, Meissonic использует высококачественные обучающие данные, интегрирует микрокондиционирование на основе оценок предпочтений человека и использует уровни сжатия функций для дальнейшего повышения точности и разрешения изображения.
В отличие от крупных диффузионных моделей, таких как SDXL и DeepFloyd-XL, Meissonic имеет всего 1 миллиард параметров, но может генерировать высококачественные изображения с разрешением 1024×1024 и работать на графических процессорах потребительского уровня всего с 8 ГБ видеопамяти без какой-либо дополнительной модели. оптимизация. Кроме того, Meissonic может легко создавать изображения со сплошным цветным фоном, что в диффузионных моделях часто требует точной настройки модели или корректировки смещения шума.
Чтобы добиться эффективного обучения, тренировочный процесс Meissonic разбит на четыре тщательно разработанных этапа:
Первый этап: понять базовые концепции на основе массивных данных. Meissonic использует отфильтрованный набор данных LAION-2B для обучения с разрешением 256×256 для изучения основных понятий.
Этап 2. Выровняйте текст и изображения с помощью длинных кончиков. Разрешение обучения увеличено до 512×512, а высококачественные синтетические пары изображение-текст и внутренние наборы данных используются для улучшения способности модели понимать длинные описательные подсказки.
Этап 3: Освойте сжатие объектов для достижения более высокого разрешения. Внедряя уровень сжатия объектов, Meissonic может плавно переходить от генерации 512×512 к 1024×1024 и обучаться с выбором высококачественных пар изображение-текст с высоким разрешением.
Этап 4: Оптимизация формирования эстетических изображений высокого разрешения. На этом этапе модель настраивается с использованием меньшей скорости обучения, а оценки предпочтений человека добавляются в качестве микроусловий для повышения производительности модели при создании высококачественных изображений.
Meissonic демонстрирует превосходную производительность и эффективность по ряду количественных и качественных показателей, включая тесты HPS, MPS, GenEval и оценки GPT4o. По сравнению с DALL-E2 и SDXL, Meissonic достигает конкурентоспособной производительности как по производительности человека, так и по выравниванию текста, а также демонстрирует свою высокую эффективность.
Кроме того, Meissonic превосходно справляется с редактированием изображений с нулевой выборкой. В наборе данных EMU-Edit компания Meissonic добилась лучших результатов в семи различных операциях, включая изменение фона, изменение содержимого изображения, изменение стиля, удаление объекта, добавление объекта, локальную модификацию и изменение цвета/текстуры. Все эти операции не требуют обучения или штрафа. -Настройка данных или наборов инструкций, специфичных для редактирования изображений.
Адрес проекта: https://github.com/viiika/Meissonic
Адрес статьи: https://arxiv.org/pdf/2410.08261.
Благодаря своей эффективности и высокой производительности Meissonic открывает новые возможности в области создания изображений. Его легкий дизайн облегчает его использование массовыми пользователями, а также дает новые идеи для будущих направлений исследований. Заинтересованные друзья могут посетить адрес проекта и адрес диссертации для получения дополнительной информации.