La generación de texto a imagen de imágenes fotorrealistas de alta resolución siempre ha sido un problema difícil en el campo de la visión por computadora. Aunque los métodos de generación tradicionales, como los modelos de difusión y los modelos autorregresivos de transformación, pueden generar imágenes de alta calidad, enfrentan problemas como un enorme consumo de recursos informáticos y pérdida de detalles. El nuevo marco "Infinity" propuesto por ByteDance tiene como objetivo resolver estos desafíos. Mejora significativamente la eficiencia de generación y la calidad de la imagen mediante etiquetado innovador a nivel de bits y clasificadores de vocabulario infinito.
En el campo de la generación de imágenes, la tarea de generar imágenes fotorrealistas y de alta resolución siempre ha enfrentado múltiples desafíos, especialmente en el proceso de síntesis de texto a imagen. Los métodos generativos tradicionales se basan principalmente en modelos de difusión y marcos de transformación autorregresiva (VAR).
Aunque estos modelos son capaces de producir imágenes de alta calidad, consumen grandes cantidades de recursos informáticos, lo que los hace inflexibles para aplicaciones en tiempo real. Al mismo tiempo, el modelo VAR es propenso a errores acumulativos al procesar marcadores discretos, lo que resulta en la pérdida de detalles en la imagen generada, afectando así el realismo de la imagen.
Para superar estas deficiencias, el equipo de investigación de ByteDance lanzó un nuevo marco llamado "Infinity", que está diseñado para mejorar la eficiencia y la calidad de la síntesis de texto a imagen.
Infinity logra una representación más detallada al introducir etiquetas a nivel de bits en lugar de etiquetas tradicionales a nivel de índice, lo que reduce significativamente los errores de cuantificación y mejora el realismo de las imágenes generadas. Además, el marco utiliza un clasificador de vocabulario infinito (IVC) para ampliar el vocabulario de tokens a 2^64, lo que reduce significativamente los requisitos de memoria y computación.
La arquitectura Infinity consta principalmente de tres partes: un etiquetador cuantificado de múltiples escalas a nivel de bits que convierte las características de la imagen en etiquetas binarias para la sobrecarga computacional; un modelo autorregresivo basado en transformador que predice residuos basándose en señales textuales y diferencias anteriores; Mecanismo de autocorrección que introduce cambios de bits aleatorios durante el proceso de entrenamiento para mejorar la robustez del modelo ante errores. El equipo de investigación utilizó grandes conjuntos de datos como LAION y OpenImages para el entrenamiento y logró avances significativos al aumentar gradualmente la resolución de la imagen de 256 × 256 a 1024 × 102.
Después de la evaluación, Infinity mostró un excelente desempeño en indicadores clave, con su puntaje GenEval de 0 y la distancia de inicio de Fréchet (FID) reducida a 3,48, lo que demuestra su mejora en la velocidad y calidad de generación. Infinity puede generar imágenes de alta resolución de 1024×1024 en 0,8 segundos, lo que demuestra su eficiencia y confiabilidad. Las imágenes generadas por el sistema no sólo son visualmente realistas y ricas en detalles, sino que también responden con precisión a instrucciones de texto complejas, lo que da como resultado puntuaciones altas de preferencia humana.
El lanzamiento de Infinity marca un nuevo punto de referencia en la síntesis de texto a imagen de alta resolución, impulsando un mayor desarrollo de la IA generativa al resolver problemas de escalabilidad y calidad de detalle de larga data con un diseño innovador.
Documento: https://arxiv.org/abs/2412.04431
Destacar:
? **Marco innovador Infinity:** El marco Infinity lanzado por Bytedance mejora en gran medida la eficiencia de la generación de imágenes de alta resolución a través de tokenización a nivel de bits y clasificadores de vocabulario ilimitados.
⚡ **Excelente rendimiento:** Infinity supera a los modelos existentes en indicadores de evaluación clave y puede generar imágenes de alta calidad de 1024×1024 en 0,8 segundos.
?️ ** Detalles auténticos y capacidad de respuesta: ** Las imágenes generadas no solo son visualmente realistas, sino que también responden con precisión a indicaciones de texto complejas, lo que muestra altas puntuaciones de preferencia humana.
En definitiva, el marco Infinity proporciona una solución eficiente y de alta calidad para la generación de texto a imagen de alta resolución, logrando avances significativos en velocidad, calidad de imagen y capacidad de respuesta a instrucciones de texto complejas, proporcionando una plataforma poderosa para el desarrollo generativo. de la IA ha marcado un nuevo hito.