¡La generación de imágenes de IA marcó el comienzo de un nuevo señor supremo! Nace el modelo open source FLUX.1, ¿están nerviosos Midjourney y DALL·E 3?

Autor：Eve Cole Fecha de actualización：2024-12-05 17:16:01

El campo de la generación de imágenes de inteligencia artificial cambia cada día que pasa. Tras la actualización de Midjourney, ha llegado el modelo de código abierto FLUX.1. Se dice que su rendimiento también supera a los modelos de código cerrado como DALL·E3 y Midjourney V6. como la serie SD3 de modelos de código abierto, atrayendo una amplia atención en la industria. El editor de Downcodes le brindará una comprensión profunda de esta nueva obra maestra creada por Robin Rombach, un experto autorizado en el campo de los modelos de difusión, así como de la innovación tecnológica y las perspectivas de futuro detrás de ella.

En el campo de la inteligencia artificial, todos los días pueden ocurrir cambios disruptivos. Justo el día después de la importante actualización de Midjourney, el campo de la generación de imágenes de código abierto marcó el comienzo de un llamativo caballo oscuro: FLUX.1. Este nuevo reproductor repentino no solo pretende superar significativamente los modelos de código cerrado como DALL·E3 y Midjourney V6 en términos de rendimiento, sino que también acaba con toda la serie SD3 de código abierto, detonando instantáneamente el círculo de la IA.

Primero, conozcamos al cerebro detrás de FLUX.1. Su fundador, Robin Rombach, no es un desconocido, sino un experto autorizado en el campo de los modelos de difusión. Sus trabajos representativos incluyen VQGAN, Taming Transformers y Latent Diffusion. Una vez se desempeñó como científico jefe de Stability AI y dirigió la serie de proyectos Stable Diffusion de renombre mundial. Se puede decir que Robin Rombach es un conductor experimentado entre los conductores experimentados en el campo de la generación de imágenes de IA.

En marzo de este año, debido a la agitación interna en Stability AI, Robin decidió irse. Después de cuatro meses de arduo trabajo, regresó con la nueva plataforma de código abierto para modelos grandes FLUX.1. Lo que es aún más sorprendente es que, en su debut, FLUX.1 recibió una ronda de financiación inicial de 32 millones de dólares liderada por la conocida institución de capital riesgo Andreessen Horowitz. Sin duda, esto proporciona un impulso al futuro desarrollo de FLUX.1.

Entonces, ¿qué tiene de sobresaliente FLUX.1? En primer lugar, se basa en la arquitectura Vision Transformer, adopta un método de entrenamiento de coincidencia de procesos y utiliza la incrustación de posiciones de rotación y capas de atención paralelas para mejorar el rendimiento del modelo y la eficiencia de utilización del hardware. Este modelo de 12 mil millones de parámetros se lanza en tres versiones:

Versión Pro: utilizada a través de API, con el rendimiento más potente.
Versión de desarrollo: un modelo de destilación guiada no comercial que hereda la mayor parte del rendimiento de la versión Pro.
Versión Schnell: un modelo de código abierto que se puede utilizar comercialmente y tiene un rendimiento excelente.

Según los datos de prueba del equipo FLUX.1, incluso la versión de código abierto Schnell supera a Midjourney v6.0 y DALL·E3 (HD) en términos de restauración semántica de texto, calidad de imagen, consistencia de acción, coherencia y diversidad y modelos convencionales. como SD3-Ultra. Especialmente al incrustar texto en imágenes, FLUX.1 muestra ventajas obvias.

Aquí, AIbase ha seleccionado varias visualizaciones de efectos de generación oficiales para su referencia:

Fotografías reales

AIbase probó el santo patrón del gato anterior y no hubo ningún problema. FLUX.1 entendió las palabras clave con mayor precisión.

Por supuesto, las ambiciones de FLUX.1 obviamente no terminan ahí. El equipo dijo que Vincent Picture es solo el comienzo. En el futuro, también planean lanzar el modelo Vincent Video para desafiar productos de primera línea como Sora, Gen-3 y Luma.

Para los desarrolladores y entusiastas de la IA, la aparición de FLUX.1 es sin duda un beneficio importante. La versión Schnell es totalmente de código abierto y cuenta con el respaldo de Comfyui. Si tiene más de 36 GB de memoria de video, incluso puede ejecutar la versión fp16 del t5. Sin embargo, cabe señalar que t5xxl_fp16.safetensors o clip_l.safetensors y VAE deben descargarse por separado.

La aparición de FLUX.1 no solo trae nuevas esperanzas al campo de la generación de imágenes de IA de código abierto, sino que también inyecta nueva vitalidad a toda la industria de la IA. Es probable que su potente rendimiento y sus funciones de código abierto aceleren la popularidad y la innovación de la tecnología de generación de imágenes de IA. Para los usuarios comunes, esto significa que pronto podremos ejecutar modelos de generación de imágenes de IA en las computadoras de nuestros hogares que rivalicen o incluso superen a Midjourney.

Dirección del proyecto: https://github.com/black-forest-labs/flux

Dirección de prueba: https://replicate.com/black-forest-labs/flux-pro

Flujo de trabajo cómodo: https://comfyanonymous.github.io/ComfyUI_examples/flux/

Con todo, la aparición de FLUX.1 marca una nueva etapa en el campo de la generación de imágenes de IA de código abierto. Su potente rendimiento y características de código abierto promoverán en gran medida la popularidad y el desarrollo de la tecnología de generación de imágenes de IA. ¡Esperamos que FLUX.1 traiga más sorpresas en el futuro!