Les modèles génératifs multimodaux deviennent une priorité dans le domaine de l'intelligence artificielle, dans le but de fusionner des données visuelles et textuelles pour créer de puissants systèmes multitâches. Cependant, les progrès des modèles autorégressifs (AR) dans le domaine de la génération d’images sont en retard par rapport aux modèles de diffusion. Cet article présentera Lumina-mGPT, un modèle AR avancé développé par des chercheurs du Shanghai AI Laboratory et de l'Université chinoise de Hong Kong. Il vise à surmonter les limites des modèles AR existants en termes de qualité d'image, de flexibilité de résolution et de polyvalence. tâches. Une percée dans la puissance de traitement.
Les modèles génératifs multimodaux sont à la pointe de la dernière tendance en matière d'intelligence artificielle, en se concentrant sur la fusion de données visuelles et textuelles pour créer des systèmes capables d'accomplir une variété de tâches. Ces tâches vont de la génération d'images très détaillées basées sur des descriptions textuelles à la compréhension et au raisonnement sur différents types de données, conduisant à la naissance de systèmes d'IA plus interactifs et intelligents qui intègrent de manière transparente la vision et le langage.
Dans ce domaine, un défi majeur consiste à développer des modèles autorégressifs (AR) capables de générer des images réalistes basées sur des descriptions textuelles. Bien que les modèles de diffusion aient fait des progrès significatifs dans ce domaine, les performances des modèles autorégressifs sont à la traîne, notamment en termes de qualité d'image, de flexibilité de résolution et de capacité à gérer une variété de tâches visuelles. Cette lacune a incité les chercheurs à rechercher des moyens innovants pour améliorer les capacités des modèles AR.
Actuellement, le domaine de la génération de texte en image est principalement occupé par les modèles de diffusion, qui excellent dans la génération d’images visuellement attrayantes de haute qualité. Cependant, les modèles AR comme LlamaGen et Parti ne sont pas à la hauteur sur cet aspect. Ils s’appuient souvent sur des architectures de codage-décodage complexes et ne peuvent souvent produire que des images à résolution fixe. Cette limitation réduit considérablement leur flexibilité et leur efficacité à générer des sorties diversifiées et haute résolution.
Pour briser ce goulot d'étranglement, des chercheurs du Shanghai AI Laboratory et de l'Université chinoise de Hong Kong ont lancé Lumina-mGPT, un modèle AR avancé conçu pour surmonter ces limitations. Lumina-mGPT est basé sur une architecture de transformateur uniquement décodeur et adopte la méthode de pré-entraînement génératif multimodal (mGPT). Ce modèle intègre des tâches de vision et de langage dans un cadre unifié, visant à atteindre le même niveau de génération d'images réalistes que le modèle de diffusion, tout en conservant la simplicité et l'évolutivité de la méthode AR.
Lumina-mGPT adopte une approche exhaustive pour améliorer les capacités de génération d’images, avec en son cœur une stratégie flexible de réglage fin supervisé progressif (FP-SFT). Cette stratégie entraîne progressivement le modèle à générer des images haute résolution à partir de basse résolution, en apprenant d'abord les concepts visuels généraux à des résolutions inférieures, puis en introduisant progressivement des détails haute résolution plus complexes. De plus, le modèle introduit un système innovant de représentation d'image sans ambiguïté qui élimine les ambiguïtés associées aux résolutions d'image et aux rapports d'aspect variables en introduisant des indicateurs de hauteur et de largeur spécifiques et des marqueurs de fin de ligne.
En termes de performances, Lumina-mGPT surpasse considérablement les modèles AR précédents en générant des images réalistes. Il est capable de générer des images haute résolution de 1 024 × 1 024 pixels, riches en détails et hautement cohérentes avec les invites textuelles fournies. Les chercheurs rapportent que Lumina-mGPT ne nécessite que 10 millions de paires image-texte pour la formation, bien moins que les 5 millions de paires image-texte requises par LlamaGen. Malgré l'ensemble de données plus petit, Lumina-mGPT surpasse ses concurrents en termes de qualité d'image et de cohérence visuelle. De plus, le modèle prend en charge diverses tâches telles que la réponse visuelle aux questions, l'annotation dense et la génération d'images contrôlables, démontrant sa flexibilité en tant que généraliste multimodal.
Son architecture flexible et évolutive améliore encore la capacité de Lumina-mGPT à générer des images diverses et de haute qualité. Ce modèle utilise des techniques de décodage avancées telles que le guidage sans classificateur (CFG), qui joue un rôle important dans l'amélioration de la qualité des images générées. Par exemple, en ajustant des paramètres tels que la température et la valeur top-k, Lumina-mGPT peut contrôler les détails et la diversité des images générées, contribuant ainsi à réduire les artefacts visuels et à améliorer la beauté globale.
Lumina-mGPT marque une avancée significative dans le domaine de la génération d'images autorégressives. Ce modèle, développé par des chercheurs du Shanghai AI Laboratory et de l'Université chinoise de Hong Kong, relie avec succès le modèle AR et le modèle de diffusion, fournissant ainsi un nouvel outil puissant pour générer des images réalistes à partir de texte. Ses méthodes innovantes de pré-formation multimodale et de réglage fin flexible démontrent les capacités de transformation potentielles des modèles AR et annoncent la naissance de systèmes d'IA plus complexes et plus polyvalents à l'avenir.
Adresse du projet : https://top.aibase.com/tool/lumina-mgpt
Adresse d'essai en ligne : https://106.14.2.150:10020/
Dans l’ensemble, l’émergence de Lumina-mGPT a apporté de nouvelles possibilités dans le domaine de la génération d’images autorégressives, et sa méthode de formation efficace et son excellent effet de génération méritent l’attention. À l’avenir, nous pouvons nous attendre à des applications plus innovantes basées sur des technologies similaires pour promouvoir le développement continu du domaine de l’intelligence artificielle.