L'équipe technologique de commercialisation de ByteDance a mis en open source son dernier modèle de graphique Vincent développé, Infinity. Ce modèle a réalisé des avancées significatives en termes de qualité de génération d'images et de vitesse d'inférence, surpassant de nombreux modèles de pointe de l'industrie, tels que Stable Diffusion 3 et HART, LlamaGen et al. L'innovation principale du modèle Infinity réside dans son cadre autorégressif unique Bitwise Token et son vocabulaire infini, qui permettent au modèle de capturer des détails d'image plus fins et d'améliorer considérablement la qualité et la limite supérieure des performances des images générées. Cet article présentera en détail les détails techniques, les performances et la situation open source du modèle Infinity.
Dans le domaine de l'intelligence artificielle, le modèle Infinity, dernière réalisation de l'équipe technologique de commercialisation de ByteDance, est devenu le nouveau roi dans le domaine des graphiques vincentiens autorégressifs grâce à ses excellentes performances et sa technologie innovante. Ce nouveau modèle open source surpasse non seulement Stable Diffusion3 en termes de qualité de génération d'images, mais présente également des avantages significatifs en termes de vitesse d'inférence.
L'innovation principale du modèle Infinity est l'adoption du cadre autorégressif Bitwise Token. Ce cadre améliore considérablement la capacité du modèle à détecter les signaux haute fréquence en prédisant le « jeton Bitwise » à granularité fine composé de +1 ou -1 au prochain. niveau de résolution, ce qui permet d'obtenir des images plus détaillées. De plus, le modèle Infinity étend le vocabulaire à l'infini, améliorant considérablement l'espace de représentation du tokenizer Image et améliorant la limite supérieure des performances de la phlébographie autorégressive.
Dans la comparaison des performances, le modèle Infinity a obtenu des résultats remarquables parmi les méthodes autorégressives, surpassant de loin HART, LlamaGen, Emu3 et d'autres méthodes, et a vaincu le modèle HART dans l'évaluation humaine avec un taux de réussite de près de 90 %. Dans le même temps, Infinity a également battu les modèles de diffusion de SOTA tels que PixArt-Sigma, SD-XL, SD3-Meidum, etc. avec des taux de victoire de 75 %, 80 % et 65 %, prouvant ainsi ses avantages parmi les modèles de même taille. .
Une autre caractéristique majeure du modèle Infinity est ses bonnes caractéristiques d’évolutivité. À mesure que la taille du modèle augmente et que des ressources de formation sont investies, la perte de l'ensemble de validation diminue régulièrement et la précision de l'ensemble de validation augmente régulièrement. En outre, Infinity a également proposé une technologie d'autocorrection des bits, qui améliore la capacité d'autocorrection du modèle et atténue le problème d'erreur cumulée lors du raisonnement autorégressif.
En termes de vitesse d'inférence, Infinity hérite de l'avantage de vitesse du VAR. Il ne faut que 0,8 seconde au modèle 2B pour générer une image 1024x1024, ce qui est 3 fois plus rapide que le SD3-Medium de la même taille et 14 fois plus rapide que le 12B Flux Dev. . Le modèle 8B est 7 fois plus rapide que le SD3.5 de même taille. Le modèle 20B met 3 secondes pour générer une image 1024x1024, soit près de 4 fois plus rapide que le 12B Flux Dev.
À l'heure actuelle, le code de formation et d'inférence, la démo et les poids du modèle Infinity ont été lancés dans l'entrepôt GitHub, et une expérience de site Web est également proposée pour permettre aux utilisateurs d'essayer et d'évaluer l'effet du modèle.
Page du projet : https://foundationvision.github.io/infinity.project/
Dans l’ensemble, le modèle Infinity a apporté de nouvelles avancées dans le domaine des graphes vincentiens autorégressifs grâce à son architecture technique avancée, ses excellentes performances et ses méthodes open source pratiques, qui méritent attention et des recherches plus approfondies. Sa vitesse d'inférence efficace et ses capacités de génération d'images de haute qualité lui confèrent un grand potentiel dans les applications pratiques.