Llamagen, un modèle de génération d'images autorégressif développé conjointement par l'Université de Hong Kong et Bytedance, lance une révolution dans le domaine de la génération d'images. En tant que travail innovant basé sur l'architecture de lama, il permettait non seulement des limites du modèle de diffusion traditionnel de la technologie, mais suscite également des réponses enthousiastes dans la communauté open source.
Sur le banc de test ImageNet, Llamagen a dépassé les modèles de diffusion traditionnels tels que LDM et DIT avec d'excellentes performances. En recyclant l'image Tokenizer, Llamagen a réalisé des avantages significatifs sur les ensembles de données ImageNet et CoCo, et ses performances ont même dépassé des modèles bien connus tels que VQGAN, VIT-VQGAN et Maskgi.
Le succès de Llamagen est construit sur trois piliers techniques de base: compression / quantification avancé d'image, modèle de génération d'images évolutifs et données de formation de haute qualité soigneusement examinées. L'équipe de recherche a adopté une architecture CNN similaire à VQ-GAN pour convertir les images continues en jetons discrets.
Dans la première phase de l'entraînement, Llamagen s'est entraîné sur un sous-ensemble de 50 m de LAION-COCO avec une résolution d'image de 256 × 256. L'équipe de recherche a assuré la qualité des données de formation grâce à des normes de dépistage strictes, y compris une URL d'image efficace, un score esthétique, un score de filigrane, etc. La deuxième étape est de régler des images internes de qualité de haute esthétique de 10 millions d'échelles, augmentant la résolution de l'image à 512 × 512, optimisant davantage l'effet de génération.
L'avantage principal de Llamagen est son excellent tokenizer d'image et l'évolutivité de l'architecture lame. Dans les tests de génération réels, Llamagen a montré une forte compétitivité dans les indicateurs clés tels que le FID, est la précision et le rappel. Par rapport au modèle autorégressif précédent, Llamagen a très bien fonctionné sur toutes les commandes de paramètres, en définissant une nouvelle référence pour le domaine de la génération d'images.
Bien que Llamagen ait obtenu des résultats remarquables, l'équipe de recherche a déclaré que ce n'était que le début de la phase stable de diffusion V1. Les orientations de développement futurs comprendront le soutien à une résolution plus élevée, un rapport plus d'aspect, une contrôlabilité plus forte et de nouveaux domaines tels que la génération vidéo. Ces plans indiquent que Llamagen continuera de diriger l'innovation dans la technologie de génération d'images dans un domaine plus large.
À l'heure actuelle, Llamagen a été ouverte pour une expérience en ligne, et les utilisateurs peuvent vivre personnellement cette technologie révolutionnaire à travers l'espace de Llamagen sur le visage étreint. Dans le même temps, la publication open source de Llamagen fournit également une plate-forme aux développeurs et aux chercheurs mondiaux pour participer et contribuer, promouvant conjointement l'avancement de la technologie de génération d'images. L'adresse du projet et l'adresse d'expérience en ligne sont les suivantes: https://top.aibase.com/tool/llamagen et https://huggingface.co/spaces/foundationvision/llamagen, respectivement.