Всего один миллиард параметров! Модель генерации изображений AI Meissonic AI может генерировать высококачественные изображения на мобильных телефонах

Автор：Eve Cole Время обновления：2024-12-10 10:48:01

Редактор Downcodes сообщает: Появилась модель генерации изображений ИИ с открытым исходным кодом под названием Meissonic. Она может генерировать высококачественные изображения, используя всего лишь один миллиард параметров. Ее можно назвать легким гигантом в области генерации изображений ИИ! Это связано с уникальной архитектурой преобразователя и новыми методами обучения, принятыми командой исследований и разработок (исследователями из Alibaba, Skywork AI и нескольких университетов). Meissonic может не только работать на обычных игровых ПК, но, как ожидается, в будущем он также внедрит локализованные приложения для преобразования текста в изображение на мобильные телефоны, что значительно снизит порог входа для генерации изображений с помощью ИИ.

Недавно научно-исследовательская группа совместно запустила модель генерации изображений с помощью искусственного интеллекта с открытым исходным кодом под названием Meissonic. Удивительно, но эта модель может генерировать высококачественные изображения, используя всего один миллиард параметров. Компактный дизайн дает Meissonic возможность локализовать приложения преобразования текста в изображение на мобильных устройствах.

В группу исследований и разработок, стоящую за этой технологией, входят исследователи из Alibaba, Skywork AI и нескольких университетов. Они использовали уникальную архитектуру преобразователя и новые методы обучения, чтобы позволить Meissonic работать на обычных игровых ПК и, возможно, даже на мобильных телефонах в будущем.

В методе обучения Мейсоника используется техника, называемая «моделированием маскированного изображения», которая просто означает, что часть изображения скрыта во время процесса обучения. Модель учится восстанавливать недостающие части на основе видимых областей и текстовых описаний. Этот подход помогает модели понять взаимосвязь между элементами изображения и текстом.

Архитектура Meissonic позволяет генерировать изображения высокого разрешения 1024x1024 пикселей, будь то реалистичные сцены или стилизованный текст, смайлики или даже мультяшные наклейки.

В отличие от традиционных моделей авторегрессии, которые постепенно генерируют изображения, Meissonic прогнозирует всю информацию об изображении одновременно посредством параллельной итеративной оптимизации. Это нововведение значительно сокращает шаги декодирования, сокращая время примерно на 99%, и значительно повышает скорость генерации изображений.

В процессе построения модели исследователи прошли четыре этапа:

Сначала они использовали 200 миллионов изображений размером 256x256 пикселей, чтобы научить модель основным понятиям, затем они использовали 10 миллионов строго проверенных пар изображение-текст, чтобы улучшить возможности понимания текста, а затем, добавив специальный уровень сжатия, модель смогла выводить результаты; Попиксельные изображения 1024x1024, наконец, они выполнили тонкую настройку, включив данные о предпочтениях человека для улучшения производительности модели.

Интересно, что, несмотря на меньшее количество параметров, Meissonic превзошел некоторые более крупные модели, такие как SDXL и DeepFloyd-XL, в нескольких тестах, достигнув высокого «показатель человеческих предпочтений» — 28,83. Кроме того, Meissonic способен исправлять и расширять изображения без дополнительного обучения, что позволяет пользователям легко добавлять недостающие части изображения или творчески улучшать существующие изображения.

Исследовательская группа считает, что этот метод может способствовать быстрой и недорогой разработке индивидуальных генераторов изображений ИИ, а также, как ожидается, будет способствовать разработке приложений для преобразования текста в изображение на мобильных устройствах. Заинтересованные друзья могут найти демо-версию на Hugging Face и просмотреть код модели на GitHub, которую можно легко запустить на потребительском графическом процессоре с обычной 8 ГБ видеопамяти.

демо: https://huggingface.co/spaces/MeissonFlow/meissonic

Проект: https://github.com/viiika/Meissonic

Выделять:

Meissonic — это модель искусственного интеллекта с открытым исходным кодом, которая может генерировать высококачественные изображения всего с одним миллиардом параметров, подходящие для использования на обычных игровых ПК и будущих мобильных устройствах.

Используя метод обучения параллельной итеративной оптимизации, Meissonic может генерировать изображения на 99% быстрее, чем традиционные модели.

? Несмотря на небольшой размер параметров, Meissonic превосходит более крупные модели в нескольких тестах и обеспечивает перерисовку и расширение изображений без обучения.

В целом, появление Meissonic открыло новые возможности в области создания изображений с помощью искусственного интеллекта. Его легкий дизайн и эффективная работа заслуживают внимания! Редактор Downcodes рекомендует всем зайти на Hugging Face и GitHub, чтобы испытать и изучить эту мощную модель искусственного интеллекта.