Stability AI выпускает новую модель поколения Stable Diffusion 3.5, три версии, значительно улучшенную скорость

Автор：Eve Cole Время обновления：2024-11-27 20:36:01

Редактор Downcodes узнал, что Stability AI недавно выпустила свою модель генерации текста в изображение Stable Diffusion 3.5, которая включает в себя три версии: Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo и Stable Diffusion 3.5 Medium, разработанные для удовлетворения потребностей разные пользователи, от профессионалов до обычных энтузиастов. Это обновление является ответом Stability AI на недостатки предыдущих версий и направлено на повышение его конкурентоспособности и конкуренции с такими платформами, как DALL-E и Midjourney от OpenAI. В новой модели значительно улучшено качество изображения, скорость генерации и простота использования, а также реализована технология нормализации ключей запроса для улучшения настройки модели и ее реагирования на подсказки.

Stability AI недавно выпустила свою новейшую модель глубокого обучения для преобразования текста в изображение — Stable Diffusion3.5. Этот выпуск включает в себя три улучшенные модели с открытым исходным кодом, предназначенные для удовлетворения потребностей различных пользователей, включая исследователей, корпоративных клиентов и энтузиастов.

Среди них Stable Diffusion3.5Large — самая мощная модель во всей серии, ее параметры достигают 8,1 миллиарда. Эта модель идеальна для профессиональных пользователей благодаря превосходному качеству изображения и высокой реакции на подсказки, способная создавать качественные изображения с разрешением до 1 Мп.

Кроме того, Stable Diffusion3.5Large Turbo — это упрощенная версия Stable Diffusion3.5Large. Это значительно повышает скорость создания высококачественных изображений. Для завершения создания изображения требуется всего 4 шага. Это более эффективно, чем предыдущая версия, и подходит для пользователей, которым необходимо быстро создавать изображения.

Еще одна новая модель — Stable Diffusion3.5Medium, имеющая 2,5 миллиарда параметров. Модель использует улучшенную архитектуру и метод обучения MMDiT-X и предназначена для использования «из коробки» и бесперебойной работы даже на оборудовании потребительского уровня. Он обеспечивает хороший баланс между качеством генерации изображений и простотой настройки, создавая изображения размером от 0,25 до 2 мегапикселей.

Предыстория этого запуска заключается в том, что после того, как июньский выпуск Stable Diffusion3Medium не оправдал ожиданий, Stability AI решила запустить более преобразующее решение. Компания заявила, что надеется восстановить конкурентоспособность на рынке с помощью этого обновления, чтобы противостоять вызовам со стороны таких платформ, как DALL-E и Midjourney от OpenAI.

Важным техническим нововведением новой модели является внедрение технологии нормализации Query-Key. Это нововведение расширяет возможности настройки модели и реагирования на подсказки, позволяя пользователям достигать более последовательных результатов с помощью явных подсказок, а также более богатую интерпретацию изображений при использовании более широких подсказок.

Серия моделей Stable Diffusion3.5 будет выпущена под лицензией сообщества Stability AI, что позволит пользователям использовать ее бесплатно для некоммерческого использования. В то же время организации с годовым доходом менее 1 миллиона долларов США также могут использовать его бесплатно, а пользователи с доходом выше этого уровня должны подать заявку на получение корпоративной лицензии.

Все модели и их необходимый вес для самостоятельного размещения будут доступны в API-интерфейсах Hugging Face и Stability AI. Кроме того, в ближайшие дни ожидается запуск функции ControlNets, обеспечивающей расширенные возможности настройки изображения.

Официальный вход:

https://stability.ai/stable-image

Три версии входа «Обнимающее лицо»:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

В целом, запуск серии Stable Diffusion 3.5 знаменует собой важный прогресс в технологии преобразования текста в изображение, предоставляя пользователям больше выбора и более мощные функции. Редактор Downcodes надеется на появление более инновационных функций в будущем.