Llamagen, un modelo autorregresivo de generación de imágenes desarrollado conjuntamente por la Universidad de Hong Kong y el byteyance, está lanzando una revolución en el campo de la generación de imágenes. Como un trabajo innovador basado en la arquitectura de la llama, no solo rompe las limitaciones del modelo de difusión tradicional en tecnología, sino que también despierta respuestas entusiastas en la comunidad de código abierto.
En el punto de referencia de la prueba de ImageNet, Llamagen superó los modelos de difusión convencionales como LDM y DIT con excelente rendimiento. Al volver a capacitar a Tokenizer de imagen, Llamagen ha logrado ventajas significativas en los conjuntos de datos de Imagenet y Coco, y su rendimiento incluso ha superado a modelos bien conocidos como VQGAN, VIT-VQGAN y MASKGI.
El éxito de Llamagen se basa en tres pilares técnicos básicos: compresión/cuantificador de imagen avanzado, modelo de generación de imágenes escalable y datos de entrenamiento de alta calidad cuidadosamente seleccionados. El equipo de investigación adoptó una arquitectura CNN similar a VQ-Gan para convertir imágenes continuas en tokens discretos.
En la primera fase de entrenamiento, Llamagen entrenó en un subconjunto de 50 m de Laion-Coco con una resolución de imagen de 256 × 256. El equipo de investigación aseguró la calidad de los datos de capacitación a través de estrictos estándares de detección, que incluyen URL de imagen efectiva, puntaje estético, puntaje de marca de agua, etc. La segunda etapa es ajustar en imágenes internas de alta calidad de alta calidad de 10 millones de escalas, lo que aumenta la resolución de la imagen a 512 × 512, optimizando aún más el efecto de generación.
La ventaja central de Llamagen es su excelente tokenizador de imagen y la escalabilidad de la arquitectura de llamas. En las pruebas de generación reales, Llamagen mostró una fuerte competitividad en indicadores clave como FID, IS, precisión y retiro. En comparación con el modelo autorregresivo anterior, Llamagen se desempeñó excelentemente en todos los órdenes de parámetros, estableciendo un nuevo punto de referencia para el campo de la generación de imágenes.
Aunque Llamagen ha logrado resultados notables, el equipo de investigación dijo que esto es solo el comienzo de la fase de difusión estable V1. Las instrucciones de desarrollo futuras incluirán el apoyo de una mayor resolución, una mayor relación de aspecto, una capacidad de control más fuerte y nuevas áreas como la generación de videos. Estos planes indican que Llamagen continuará liderando la innovación en la tecnología de generación de imágenes en un campo más amplio.
En la actualidad, Llamagen se ha abierto para la experiencia en línea, y los usuarios pueden experimentar personalmente esta tecnología revolucionaria a través del espacio de Llamagen en la cara abrazada. Al mismo tiempo, el lanzamiento de código abierto de Llamagen también proporciona una plataforma para que los desarrolladores e investigadores mundiales participen y contribuyan, promoviendo conjuntamente el avance de la tecnología de generación de imágenes. La dirección del proyecto y la dirección de experiencia en línea son: https://top.aibase.com/tool/llamagen y https://huggingface.co/spaces/foundationvision/llamagen, respectivamente.