Генерация изображений с помощью искусственного интеллекта открыла нового повелителя! Родилась модель FLUX.1 с открытым исходным кодом. Не нервничают ли Midjourney и DALL·E 3?

Автор：Eve Cole Время обновления：2024-12-05 17:16:01

Область создания изображений с помощью искусственного интеллекта меняется с каждым днем. После обновления Midjourney появилась модель с открытым исходным кодом FLUX.1. Говорят, что ее производительность также превосходит модели с закрытым исходным кодом, такие как DALL·E3 и Midjourney V6. как серия SD3 моделей с открытым исходным кодом, привлекающая широкое внимание в отрасли. Редактор Downcodes даст вам более глубокое понимание этого нового шедевра, созданного Робином Ромбахом, авторитетным экспертом в области моделей диффузии, а также технологических инноваций и будущих перспектив, стоящих за ним.

В сфере искусственного интеллекта разрушительные изменения могут происходить каждый день. Всего на следующий день после основного обновления Midjourney в области создания изображений с открытым исходным кодом появилась привлекательная темная лошадка — FLUX.1. Этот внезапный новый игрок не только утверждает, что значительно превосходит модели с закрытым исходным кодом, такие как DALL·E3 и Midjourney V6, с точки зрения производительности, но и убивает всю серию SD3 с открытым исходным кодом, мгновенно взорвав круг ИИ.

Давайте сначала познакомимся с вдохновителем FLUX.1. Ее основатель Робин Ромбах – не кто-то неизвестный, а авторитетный эксперт в области диффузионных моделей. Его типичные работы включают VQGAN, Taming Transformers и Latent Diffusion. Когда-то он был главным научным сотрудником Stability AI и возглавлял всемирно известную серию проектов Stable Diffusion. Можно сказать, что Робин Ромбах — опытный водитель среди опытных водителей в области генерации изображений с помощью ИИ.

В марте этого года из-за внутренних беспорядков в Stability AI Робин решил уйти. После четырех месяцев напряженной работы он вернулся с новой платформой больших моделей с открытым исходным кодом FLUX.1. Что еще более удивительно, так это то, что после своего дебюта FLUX.1 получил начальный раунд финансирования в размере 32 миллионов долларов США под руководством известного института венчурного капитала Andreessen Horowitz. Это, несомненно, дает толчок будущему развитию FLUX.1.

Итак, что же такого выдающегося в FLUX.1? Прежде всего, он основан на архитектуре Vision Transformer, использует метод обучения сопоставлению процессов и использует встраивание позиций вращения и уровни параллельного внимания для повышения производительности модели и эффективности использования оборудования. Эта модель с 12 миллиардами параметров запущена в трех версиях:

Версия Pro: используется через API и обеспечивает максимальную производительность.
Версия для разработчиков: некоммерческая модель управляемой дистилляции, унаследовавшая большую часть производительности версии Pro.
Версия Schnell: модель с открытым исходным кодом, которую можно использовать в коммерческих целях и которая имеет отличную производительность.

По данным испытаний команды FLUX.1, даже версия Schnell с открытым исходным кодом превосходит Midjourney v6.0 и DALL·E3 (HD) по семантическому восстановлению текста, качеству изображения, согласованности действий, связности и разнообразию и массовости моделей. например SD3-Ultra. FLUX.1 демонстрирует очевидные преимущества, особенно при встраивании текста в изображения.

Здесь AIbase выбрала для вашего удобства несколько официальных дисплеев эффектов генерации:

Реальные фотографии фотографий

AIbase протестировала предыдущего покровителя кошек, и FLUX.1 без проблем понял слова-подсказки.

Конечно, амбиции FLUX.1 на этом не заканчиваются. Команда заявила, что Vincent Picture — это только начало. В будущем они также планируют запустить модель Vincent Video, которая бросит вызов таким продуктам первой линии, как Sora, Gen-3 и Luma.

Для разработчиков и энтузиастов искусственного интеллекта появление FLUX.1, несомненно, является большим преимуществом. Версия Schnell имеет полностью открытый исходный код и поддерживается Comfyui. Если у вас более 36 ГБ видеопамяти, вы даже можете запустить версию t5 fp16. Однако следует отметить, что t5xxl_fp16.safetensors или clip_l.safetensors и VAE необходимо загружать отдельно.

Появление FLUX.1 не только вселяет новую надежду в область создания изображений ИИ с открытым исходным кодом, но и придаёт новую жизнь всей индустрии ИИ. Его высокая производительность и функции с открытым исходным кодом, вероятно, ускорят популярность и инновации технологии создания изображений AI. Для обычных пользователей это означает, что вскоре мы сможем запускать на наших домашних компьютерах модели генерации изображений ИИ, которые будут конкурировать или даже превосходить Midjourney.

Адрес проекта: https://github.com/black-forest-labs/flux

Пробный адрес: https://recite.com/black-forest-labs/flux-pro.

Рабочий процесс Comfyui: https://comfyanonymous.github.io/ComfyUI_examples/flux/

В целом, появление FLUX.1 знаменует собой новый этап в области создания изображений AI с открытым исходным кодом. Его мощная производительность и функции с открытым исходным кодом будут значительно способствовать популярности и развитию технологии создания изображений AI. Мы с нетерпением ждем, когда FLUX.1 преподнесет еще больше сюрпризов в будущем!