В последние годы технологии генерации изображений ИИ меняются с каждым днем, но высокие затраты на вычислительные средства ограничивали их популярность. Эта статья представляет новый тип текста, называемый SANA, в рамках изображения. Сана может генерировать сверхвысокие изображения с разрешением 4096 × 4096 на графическом процессоре обычных ноутбуков, и ее скорость намного превышает существующую технологию. Основным инновациями в рамках является сочетание глубокого сжатия самоподошного, линейного DIT, текстового энкодера декодера, а также стратегий эффективного обучения и отбора проб.
Технология генерации изображений AI быстро развивается, но модель становится все больше и больше. Теперь новый тип текста под названием «SANA» рожден в рамках изображения. ноутбука.
Основной дизайн Саны включает в себя:
Глубокий сжатие самододер: отличается от традиционного самооценка изображения всего в 8 раз, что традиционный самододер может сжимать изображение в 32 раза, что эффективно снижает потенциальные токены. Это важно для обучения с высокой эффективностью и генерации изображений с ультра -высоким разрешением.
Линейный DIT: SANA заменяет все традиционные механизмы внимания в DIT линейным вниманием, что повышает эффективность обработки изображений с высоким уровнем резоляции без жертвы качества. Линейное внимание уменьшает сложность расчета от O (N²) до O (n). Кроме того, SANA также использует Mix-FFN для интеграции глубины 3x3 в MLP в MLP для агрегирования локальной информации токенов, а также не требуется кодировка позиции.
Текст декодера: Сана использует новейший декодер Small LLM (например, Gemma) в качестве текстового энкодера, чтобы заменить обычно используемый клип или T5. Этот метод улучшает понимание и рассуждение подсказок модели и улучшает выравнивание текста изображения с помощью сложных искусственных инструкций и контекстного обучения.
Эффективная стратегия обучения и отбора проб: SANA использует Flow-DPM-Solver для уменьшения этапов отбора проб и использования эффективных методов маркировки заголовка и выбора для ускорения конвергенции модели. Модель SANA-0,6B в 20 раз меньше, чем большая диффузионная модель (такая как Flux-12B), которая более чем в 100 раз быстрее.
Инновация SANA заключается в том, что оно значительно сократило задержку рассуждения с помощью следующих методов:
Алгоритм и совместная оптимизация системы: с помощью множественных методов оптимизации SANA сократила время генерации 4096x4096 изображений от 469 секунд до 9,6 секунды, в 106 раз быстрее, чем самый продвинутый поток модели.
Глубокий компрессор из Encoder: Sana использует структуру AE-F32C32P1 для сжатия изображения 32 раза, что значительно уменьшает количество токенов и ускоряет тренировки и рассуждения.
Линейное внимание: используйте линейное внимание для замены традиционного механизма самообвинения, что повышает эффективность обработки изображений с высоким уровнем резоляции.
Тритон Ускорение: Используйте Triton для объединения ядра прямого и обратного процесса линейного модуля внимания для дальнейшего ускорения обучения и рассуждений.
Проточный DPM-Solver: Уменьшите шаги выборки вывода с 28-50 до 14-20 шагов и в то же время достичь лучших результатов.
Выступление Саны очень хорошее. При разрешении 1024x1024 параметры модели SANA-0,6B составляли всего 590 миллионов, но общая производительность достигла 0,64 генэвала, что не уступает многим более крупным моделям. Более того, SANA-0,6B может быть развернута на графическом процессоре ноутбука 16 ГБ, который требует всего лишь 1 секунду, чтобы генерировать разрешение 1024 × 1024. Для изображений 4K пропускная способность SANA-0,6B более чем в 100 раз быстрее, чем самый продвинутый метод (поток). SANA не только прорывалась в скорости, но и обладает конкурентоспособностью с точки зрения качества изображения.
Кроме того, Сана также обладает сильной способностью мигрировать с языком с нулевым примером. Даже если обучаются только английские данные, Сана может понять подсказки китайских и смайликов и генерировать соответствующие изображения.
Появление SANA снизило порог для создания высококачественных изображений, предоставляя сильные инструменты создания контента для профессионалов и обычных пользователей. Код и модель Саны будут выпущены публично.
Адрес опыта: https://nv-sana.mit.edu/
Адрес тезиса: https://arxiv.org/pdf/2410.10629
Github: https: //github.com/nvlabs/sana
В целом, SANA достигла прорывного прогресса в области генерации изображений благодаря его эффективному алгоритму и оптимизированному проектированию системы, что привело к беспрецедентному удобству пользователей и высококачественному образованию изображений. Его характеристики с открытым исходным кодом также вносят важные вклад в разработку технологии генерации изображений ИИ.