El editor de Downcodes se enteró de que Google DeepMind y el Instituto Tecnológico de Massachusetts (MIT) han logrado un gran avance en el campo de la generación de texto a imagen. El nuevo modelo autorregresivo Fluid que desarrollaron muestra un rendimiento excelente en una escala de parámetros de 10,5 mil millones, subvirtiendo la comprensión de la industria sobre los modelos autorregresivos en el campo de la generación de imágenes. El núcleo de esta investigación radica en la introducción innovadora de elementos de palabras continuas y un orden de generación aleatorio, lo que mejora significativamente el rendimiento y la escalabilidad del modelo y aporta una nueva dirección a la tecnología de generación de imágenes.
Google DeepMind y el Instituto Tecnológico de Massachusetts (MIT) publicaron recientemente el resultado de una importante investigación. El nuevo modelo autorregresivo Fluid desarrollado por el equipo de investigación ha logrado grandes avances en el campo de la generación de texto a imagen. El modelo tiene un rendimiento excelente después de ampliarse a una escala de 10,5 mil millones de parámetros.
Esta investigación subvierte la percepción común en la industria. Anteriormente, aunque los modelos autorregresivos dominaban el campo del procesamiento del lenguaje, se los consideraba inferiores a los modelos de difusión como Stable Diffusion y Google Imagen3 en la generación de imágenes. Los investigadores mejoraron significativamente el rendimiento y la escalabilidad del modelo autorregresivo al introducir de manera innovadora dos factores de diseño clave: usar elementos de palabras continuos en lugar de elementos de palabras discretos e introducir un orden generado aleatoriamente en lugar de un orden fijo.
En términos de procesamiento de información de imágenes, los elementos de palabras continuas tienen ventajas obvias. Los tokens discretos tradicionales codifican regiones de imágenes en códigos con un vocabulario limitado. Este enfoque conduce inevitablemente a la pérdida de información y es difícil, incluso para modelos grandes, generar con precisión características detalladas como ojos simétricos. Los elementos de palabras continuas pueden guardar información más precisa y mejorar significativamente la calidad de la reconstrucción de imágenes.
El equipo de investigación también innovó en la secuencia de generación de imágenes. Los modelos autorregresivos tradicionales suelen generar imágenes en un orden fijo de izquierda a derecha y de arriba a abajo. Los investigadores probaron un enfoque secuencial aleatorio, permitiendo al modelo predecir múltiples píxeles en cualquier ubicación en cada paso. Este método funciona bien en tareas que requieren una buena comprensión de la estructura general de la imagen y logró ventajas significativas en la prueba comparativa GenEval que mide la coincidencia del texto y las imágenes generadas.
El rendimiento real del modelo Fluid confirma el valor de la investigación. Después de escalar a 10,5 mil millones de parámetros, Fluid superó a los modelos existentes en múltiples puntos de referencia importantes. Vale la pena señalar que el pequeño modelo Fluid con solo 369 millones de parámetros ha alcanzado la puntuación FID (7,23) del modelo Parti con 20 mil millones de parámetros en el conjunto de datos MS-COCO.
El resultado de esta investigación muestra que es probable que los modelos autorregresivos como Fluid se conviertan en alternativas poderosas a los modelos de difusión. En comparación con los modelos de difusión que requieren múltiples pases hacia adelante y hacia atrás, Fluid solo necesita un paso para generar imágenes. Esta ventaja de eficiencia será más obvia a medida que el modelo se expanda aún más.
Esta investigación aporta nuevas posibilidades al campo de la generación de texto a imagen, y la aparición del modelo Fluid también marca el surgimiento de los modelos autorregresivos en el campo de la generación de imágenes. En el futuro, podemos esperar más aplicaciones y mejoras basadas en modelos Fluid para promover aún más el avance de la tecnología de generación de imágenes con inteligencia artificial. El editor de Downcodes seguirá prestando atención a los últimos desarrollos en este campo y brindará contenido más interesante a los lectores.