Sana, новейшая модель NVIDIA для создания изображений с открытым исходным кодом, своим компактным размером и высокой производительностью произвела настоящий фурор в области создания изображений с использованием искусственного интеллекта. Sana имеет всего 60 миллионов параметров, но она может генерировать изображения высокой четкости с разрешением до 4096×4096 пикселей и достигать скорости менее второго поколения на видеокарте емкостью 16 ГБ. Это связано с его инновационным автокодировщиком глубокого сжатия и линейным диффузионным преобразователем, а также оптимизацией стратегий кодирования текста и вывода. Его производительность является выдающейся среди аналогичных моделей, даже по сравнению с моделями с большими параметрами.
Недавно NVIDIA выложила в открытый доступ модель генерации изображений под названием Sana. Эта модель имеет всего 60 миллионов параметров, что значительно снижает порог работы.
Понятно, что Sana может генерировать изображения с разрешением 4096×4096 и работать на видеокарте емкостью 16 ГБ. Она может генерировать высококачественные изображения с разрешением 1024×1024 менее чем за 1 секунду. Эта скорость является выдающейся среди аналогичных моделей.
Исследовательская группа представила автокодировщик глубокого сжатия (DC-AE). По сравнению с традиционными автокодировщиками, Sana имеет степень сжатия до 32 раз, что значительно сокращает количество потенциальных меток, что полезно для создания изображений сверхвысокого разрешения. Ключевой. Во-вторых, Sana использует линейный диффузионный преобразователь (DiT) для замены традиционного квадратичного внимания линейным вниманием, тем самым снижая сложность до O (N), и улучшает локальную информацию за счет способности захвата глубины 3 × 3. Такая конструкция увеличивает задержку Sana в 1,7 раза при создании изображений 4K.
Что касается кодирования текста, Сана выбрала Gemma, небольшую модель большого языка, предназначенную для декодера, вместо традиционной модели T5. Джемма лучше понимает и выполняет сложные инструкции, улучшая способность совмещать изображения и текст. Кроме того, Sana оптимизирует стратегии обучения и вывода, чтобы улучшить согласованность текста и изображений, автоматически маркируя и выбирая описания с высокими оценками CLIP. Недавно предложенный алгоритм Flow-DPM-Solver сокращает количество шагов рассуждения до 14-20 шагов, что значительно повышает производительность.
С точки зрения общей производительности, Sana хорошо работает в нескольких продвинутых моделях диффузии текста в изображение. При разрешении 512×512 Sana-0.6 имеет в 5 раз большую пропускную способность, чем PixArt-Σ, и обеспечивает хорошие результаты с точки зрения качества генерации изображений. При разрешении 1024х1024 Сана-0.6Б также имеет значительные преимущества в моделях с числом параметров менее 300 миллионов.
Sana-0.6B не только обладает высокой производительностью, но также может быстро генерировать изображения на графическом процессоре ноутбука емкостью 16 ГБ, помогая создателям контента эффективно достигать своих творческих целей. Говорят, что Sana0.6B также конкурирует с Flux-12B по производительности. Количество параметров всего 1/20, но скорость в целых 100 раз выше.
Интересно, что подсказки Sana поддерживают английский, китайский языки и смайлики. Пользователи могут вводить китайские стихи и создавать связанные с ними художественные изображения. Кроме того, Sana также имеет определенную степень безопасности. Когда пользователи вводят недопустимые слова, система автоматически заменяет их узорами в виде красных сердечек, чтобы избежать создания нежелательного контента.
Например, когда AIbase вводит слово-подсказку «Кот играет в траве, звезды», скорость генерации очень высокая, и эффект тоже очень хороший.
В качестве другого примера, учитывая подсказку «Милый ест, стиль рисования тушью», вы можете видеть, что модель может точно идентифицировать смайлики.
Стоит отметить, что Sana получила официальную поддержку ComfyUI и оснащена обучающим инструментом Lora. Это делает его более удобным для пользователей, а также значительно повышает его практичность. Заинтересованные друзья могут попробовать его сами.
Вход в проект: https://nv-sana.mit.edu/
Выделять:
** Эффективное создание **: Sana может быстро генерировать высококачественные изображения с разрешением до 4096×4096, подходящие для использования на обычных графических процессорах ноутбуков.
**Инновационный дизайн**: автоэнкодер глубокого сжатия и линейный диффузионный преобразователь значительно повышают скорость и качество генерации.
**Отличная производительность**: Sana хорошо показала себя во многих тестах, при этом пропускная способность значительно выше, чем у других продвинутых моделей, что обеспечивает быстрое создание контента.
В целом, Sana предлагает пользователям новый опыт создания изображений с помощью искусственного интеллекта благодаря эффективной скорости создания, высококачественному выводу изображений и удобству использования. Стоит с нетерпением ждать его дальнейшего развития.