Выпуск модели Stable Diffusion 3 знаменует собой значительный прогресс в области преобразования текста в изображение. Эта модель использует ту же архитектуру DiT, что и Sora, и значительно улучшает качество генерации изображений за счет ряда технических улучшений. Размер его параметров варьируется от 800M до 8B, что демонстрирует высокую производительность и гибкий потенциал применения. Стоит отметить, что группа исследований и разработок SD3 объединяет опыт основных членов отдела исследований и разработок Sora и доцентов Нью-Йоркского университета и использует архитектуру MMDiT, которая превосходит UViT и DiT, а также инновационные варианты формулы Rectified Flow (RF), которые Это обеспечивает прочную основу для улучшения производительности модели.
Выпущена модель Stable Diffusion 3, использующая ту же архитектуру DiT, что и Sora, со значительными улучшениями качества. Авторы утверждают, что Stable Diffusion 3 превосходит другие системы генерации текста в изображение с размерами параметров от 800M до 8B. Архитектура SD3 основана на сотрудничестве между основными участниками исследований и разработок Sora и доцентами Нью-Йоркского университета, используя архитектуру MMDiT, которая превосходит UViT и DiT. В Stable Diffusion 3 используется формула выпрямленного потока (RF), а производительность перевзвешенного варианта RF, предложенного автором, продолжает улучшаться. Модель расширена и улучшена с помощью гибкого кодировщика текста, а ее производительность сравнивается с другими моделями.
Выпуск Stable Diffusion 3 не только отражает быстрое развитие технологии преобразования текста в изображение, но и указывает на то, что в будущем в области генерации изображений ИИ будут появляться все более мощные модели. Его улучшенная архитектура и алгоритм, а также сравнение производительности с другими моделями предоставляют ценные справочные материалы для исследователей и разработчиков. Мы с нетерпением ожидаем, что Stable Diffusion 3 сможет сыграть роль в большем количестве сценариев применения в будущем.