Шокирующий внешний вид! Модель генерации изображений NVIDIA с открытым исходным кодом Sana генерирует изображения за 1 секунду, поддерживает китайский, английский и эмодзи - статья об искусственном интеллекте

Автор：Eve Cole Время обновления：2025-01-27 21:16:01

Sana, новейшая модель NVIDIA для создания изображений с открытым исходным кодом, своим компактным размером и высокой производительностью произвела настоящий фурор в области создания изображений с использованием искусственного интеллекта. Sana имеет всего 60 миллионов параметров, но она может генерировать изображения высокой четкости с разрешением до 4096×4096 пикселей и достигать скорости менее второго поколения на видеокарте емкостью 16 ГБ. Это связано с его инновационным автокодировщиком глубокого сжатия и линейным диффузионным преобразователем, а также оптимизацией стратегий кодирования текста и вывода. Его производительность является выдающейся среди аналогичных моделей, даже по сравнению с моделями с большими параметрами.

Недавно NVIDIA выложила в открытый доступ модель генерации изображений под названием Sana. Эта модель имеет всего 60 миллионов параметров, что значительно снижает порог работы.

Понятно, что Sana может генерировать изображения с разрешением 4096×4096 и работать на видеокарте емкостью 16 ГБ. Она может генерировать высококачественные изображения с разрешением 1024×1024 менее чем за 1 секунду. Эта скорость является выдающейся среди аналогичных моделей.

Исследовательская группа представила автокодировщик глубокого сжатия (DC-AE). По сравнению с традиционными автокодировщиками, Sana имеет степень сжатия до 32 раз, что значительно сокращает количество потенциальных меток, что полезно для создания изображений сверхвысокого разрешения. Ключевой. Во-вторых, Sana использует линейный диффузионный преобразователь (DiT) для замены традиционного квадратичного внимания линейным вниманием, тем самым снижая сложность до O (N), и улучшает локальную информацию за счет способности захвата глубины 3 × 3. Такая конструкция увеличивает задержку Sana в 1,7 раза при создании изображений 4K.

Что касается кодирования текста, Сана выбрала Gemma, небольшую модель большого языка, предназначенную для декодера, вместо традиционной модели T5. Джемма лучше понимает и выполняет сложные инструкции, улучшая способность совмещать изображения и текст. Кроме того, Sana оптимизирует стратегии обучения и вывода, чтобы улучшить согласованность текста и изображений, автоматически маркируя и выбирая описания с высокими оценками CLIP. Недавно предложенный алгоритм Flow-DPM-Solver сокращает количество шагов рассуждения до 14-20 шагов, что значительно повышает производительность.

С точки зрения общей производительности, Sana хорошо работает в нескольких продвинутых моделях диффузии текста в изображение. При разрешении 512×512 Sana-0.6 имеет в 5 раз большую пропускную способность, чем PixArt-Σ, и обеспечивает хорошие результаты с точки зрения качества генерации изображений. При разрешении 1024х1024 Сана-0.6Б также имеет значительные преимущества в моделях с числом параметров менее 300 миллионов.

Sana-0.6B не только обладает высокой производительностью, но также может быстро генерировать изображения на графическом процессоре ноутбука емкостью 16 ГБ, помогая создателям контента эффективно достигать своих творческих целей. Говорят, что Sana0.6B также конкурирует с Flux-12B по производительности. Количество параметров всего 1/20, но скорость в целых 100 раз выше.

Интересно, что подсказки Sana поддерживают английский, китайский языки и смайлики. Пользователи могут вводить китайские стихи и создавать связанные с ними художественные изображения. Кроме того, Sana также имеет определенную степень безопасности. Когда пользователи вводят недопустимые слова, система автоматически заменяет их узорами в виде красных сердечек, чтобы избежать создания нежелательного контента.

Например, когда AIbase вводит слово-подсказку «Кот играет в траве, звезды», скорость генерации очень высокая, и эффект тоже очень хороший.

В качестве другого примера, учитывая подсказку «Милый ест, стиль рисования тушью», вы можете видеть, что модель может точно идентифицировать смайлики.

Стоит отметить, что Sana получила официальную поддержку ComfyUI и оснащена обучающим инструментом Lora. Это делает его более удобным для пользователей, а также значительно повышает его практичность. Заинтересованные друзья могут попробовать его сами.

Вход в проект: https://nv-sana.mit.edu/

Выделять:

** Эффективное создание **: Sana может быстро генерировать высококачественные изображения с разрешением до 4096×4096, подходящие для использования на обычных графических процессорах ноутбуков.

**Инновационный дизайн**: автоэнкодер глубокого сжатия и линейный диффузионный преобразователь значительно повышают скорость и качество генерации.

**Отличная производительность**: Sana хорошо показала себя во многих тестах, при этом пропускная способность значительно выше, чем у других продвинутых моделей, что обеспечивает быстрое создание контента.

В целом, Sana предлагает пользователям новый опыт создания изображений с помощью искусственного интеллекта благодаря эффективной скорости создания, высококачественному выводу изображений и удобству использования. Стоит с нетерпением ждать его дальнейшего развития.