El equipo de tecnología de comercialización de ByteDance ha abierto su último modelo de gráfico Vincent desarrollado, Infinity. Este modelo ha logrado avances significativos en la calidad de generación de imágenes y la velocidad de inferencia, superando a muchos modelos líderes en la industria, como Stable Diffusion 3 y HART, LlamaGen et al. La principal innovación del modelo Infinity radica en su exclusivo marco autorregresivo Bitwise Token y su vocabulario infinito, que permite al modelo capturar detalles de imagen más finos y mejorar en gran medida la calidad y el límite superior de rendimiento de las imágenes generadas. Este artículo presentará en detalle los detalles técnicos, el rendimiento y la situación del código abierto del modelo Infinity.
En el campo de la inteligencia artificial, el modelo Infinity, el último logro del equipo de tecnología de comercialización de ByteDance, se ha convertido en el nuevo rey en el campo de los gráficos vicencianos autorregresivos con su excelente rendimiento y tecnología innovadora. Este nuevo modelo de código abierto no solo supera a Stable Diffusion3 en calidad de generación de imágenes, sino que también muestra ventajas significativas en velocidad de inferencia.
La principal innovación del modelo Infinity es la adopción del marco autorregresivo Bitwise Token. Este marco mejora significativamente la capacidad del modelo para detectar señales de alta frecuencia al predecir el "Bitwise Token" de grano fino compuesto de +1 o -1 en el siguiente. nivel de resolución. Además, el modelo Infinity expande el vocabulario hasta el infinito, mejorando en gran medida el espacio de representación del tokenizador de imágenes y mejorando el límite superior de rendimiento del venograma autorregresivo.
En la comparación de rendimiento, el modelo Infinity tuvo un desempeño sobresaliente entre los métodos autorregresivos, superando con creces a HART, LlamaGen, Emu3 y otros métodos, y derrotó al modelo HART en la evaluación humana con una tasa de victoria de casi el 90%. Al mismo tiempo, Infinity también derrotó a los modelos de difusión de SOTA como PixArt-Sigma, SD-XL, SD3-Meidum, etc. con tasas de ganancia del 75%, 80% y 65%, demostrando sus ventajas entre modelos del mismo tamaño. .
Otra característica importante del modelo Infinity son sus buenas características de escala. A medida que aumenta el tamaño del modelo y se invierten recursos de capacitación, la pérdida del conjunto de validación disminuye constantemente y la precisión del conjunto de validación aumenta constantemente. Además, Infinity también propuso una tecnología de autocorrección de bits, que mejora la capacidad de autocorrección del modelo y alivia el problema de error acumulativo durante el razonamiento autorregresivo.
En términos de velocidad de inferencia, Infinity hereda la ventaja de velocidad de VAR. Solo le toma 0,8 segundos al modelo 2B generar una imagen de 1024x1024, que es 3 veces más rápido que SD3-Medium del mismo tamaño y 14 veces más rápido que 12B Flux Dev. . El modelo 8B es 7 veces más rápido que el SD3.5 del mismo tamaño. El modelo 20B tarda 3 segundos en generar una imagen de 1024x1024, que es casi 4 veces más rápido que el 12B Flux Dev.
En la actualidad, el código de capacitación e inferencia, la demostración y los pesos del modelo Infinity se lanzaron en el almacén de GitHub, y también se proporciona una experiencia en el sitio web para facilitar a los usuarios probar y evaluar el efecto del modelo.
Página del proyecto: https://foundationvision.github.io/infinity.project/
Con todo, el modelo Infinity ha aportado nuevos avances al campo de los gráficos vicencianos autorregresivos con su arquitectura técnica avanzada, excelente rendimiento y métodos convenientes de código abierto, que merecen atención e investigación adicional. Su velocidad de inferencia eficiente y sus capacidades de generación de imágenes de alta calidad le otorgan un gran potencial en aplicaciones prácticas.