La génération texte-image d’images photoréalistes haute résolution a toujours été un problème difficile dans le domaine de la vision par ordinateur. Bien que les méthodes de génération traditionnelles telles que les modèles de diffusion et les modèles autorégressifs de transformation puissent générer des images de haute qualité, elles sont confrontées à des problèmes tels qu'une énorme consommation de ressources informatiques et une perte de détails. Le nouveau framework « Infinity » proposé par ByteDance vise à résoudre ces défis. Il améliore considérablement l'efficacité de la génération et la qualité des images grâce à un marquage innovant au niveau des bits et à des classificateurs de vocabulaire infinis.
Dans le domaine de la génération d’images, la création d’images haute résolution et photoréalistes a toujours été confrontée à de multiples défis, notamment dans le processus de synthèse texte-image. Les méthodes génératives traditionnelles reposent principalement sur des modèles de diffusion et des cadres de transformation autorégressive (VAR).
Bien que ces modèles soient capables de produire des images de haute qualité, ils consomment de grandes quantités de ressources informatiques, ce qui les rend peu flexibles pour les applications en temps réel. Dans le même temps, le modèle VAR est sujet à des erreurs cumulatives lors du traitement de marqueurs discrets, entraînant une perte de détails dans l'image générée, affectant ainsi le réalisme de l'image.
Pour surmonter ces lacunes, l’équipe de recherche de ByteDance a lancé un nouveau framework appelé « Infinity », conçu pour améliorer l’efficacité et la qualité de la synthèse texte-image.
Infinity obtient une représentation plus fine en introduisant des balises au niveau bit au lieu des balises traditionnelles au niveau de l'index, réduisant ainsi considérablement les erreurs de quantification et améliorant le réalisme des images générées. De plus, le framework utilise un classificateur de vocabulaire infini (IVC) pour étendre le vocabulaire des jetons à 2 ^ 64, réduisant considérablement les besoins en mémoire et en calcul.
L'architecture Infinity se compose principalement de trois parties : un marqueur quantifié multi-échelle au niveau du bit qui convertit les caractéristiques de l'image en balises binaires pour la surcharge de calcul ; un modèle autorégressif basé sur un transformateur qui prédit les résidus en fonction des indications textuelles et des différences précédentes ; mécanisme d'autocorrection qui introduit des retournements de bits aléatoires pendant le processus de formation pour améliorer la robustesse du modèle aux erreurs. L’équipe de recherche a utilisé de grands ensembles de données tels que LAION et OpenImages pour la formation et a réalisé des progrès significatifs en augmentant progressivement la résolution de l’image de 256×256 à 1024×102.
Après évaluation, Infinity a montré d'excellentes performances sur les indicateurs clés, avec un score GenEval de 0 et une distance de démarrage de Fréchet (FID) réduite à 3,48, démontrant son amélioration en termes de vitesse et de qualité de génération. Infinity peut générer des images haute résolution 1 024 × 1 024 en 0,8 seconde, démontrant son efficacité et sa fiabilité. Les images générées par le système sont non seulement visuellement réalistes et riches en détails, mais répondent également avec précision à des instructions textuelles complexes, ce qui se traduit par des scores de préférence humaine élevés.
Le lancement d'Infinity marque une nouvelle référence en matière de synthèse texte-image haute résolution, favorisant le développement de l'IA générative en résolvant les problèmes d'évolutivité et de qualité des détails de longue date grâce à une conception innovante.
Article : https://arxiv.org/abs/2412.04431
Points forts:
? **Innovative Framework Infinity :** Le framework Infinity lancé par Bytedance améliore considérablement l'efficacité de la génération d'images haute résolution grâce à la tokenisation au niveau du bit et aux classificateurs de vocabulaire illimités.
⚡ **Excellentes performances :** Infinity surpasse les modèles existants dans les indicateurs d'évaluation clés et peut générer des images 1024×1024 de haute qualité en 0,8 seconde.
?️ ** Détails authentiques et réactivité : ** Les images générées sont non seulement visuellement réalistes, mais répondent également avec précision aux invites textuelles complexes, affichant des scores de préférence humaine élevés.
Dans l'ensemble, le framework Infinity fournit une solution efficace et de haute qualité pour la génération de texte en image haute résolution, réalisant des avancées significatives en termes de vitesse, de qualité d'image et de réactivité aux instructions de texte complexes, fournissant ainsi une plate-forme puissante pour le développement génératif. de l’IA a franchi une nouvelle étape.