Des progrès significatifs ont été réalisés dans le domaine de la génération d'images, mais les limites des modèles existants ont entravé l'unité des modèles de vision du langage. Cet article présente un nouveau modèle de texte à l'image appelé Meissonic, qui utilise la technologie de modélisation d'images masqués non autorégressive (MIM) pour obtenir des modèles de diffusion de pointe (tels que SDXL) avec seulement 1 milliard de paramètres requis. Une qualité de génération d'images considérable. Meissonic améliore considérablement les performances et l'efficacité du MIM avec son innovation architecturale, ses stratégies de codage de localisation et ses conditions d'échantillonnage optimisées, et réalise la génération d'images de résolution 1024 × 1024 sur les GPU grand public.
Au cœur de Meissonic se trouve une gamme d'innovations architecturales, de stratégies de codage de position avancé et de conditions d'échantillonnage optimisées qui améliorent considérablement les performances et l'efficacité du MIM. De plus, Meissonic utilise également des données d'entraînement de haute qualité, intègre des micro-conditions basées sur les scores de préférence humaine et adopte des couches de compression de caractéristiques pour améliorer davantage la fidélité et la résolution de l'image.
Contrairement aux grands modèles de diffusion tels que SDXL et DeepFloyd-XL, Meissonic n'a que 1 milliard de paramètres, mais il peut générer des images de haute qualité avec une résolution 1024 × 1024 et peut fonctionner sur des GPU de niveau consommateur avec seulement 8 Go de mémoire vidéo sans aucun modèle supplémentaire optimisation. De plus, Meissonic facilite la génération d'images avec des arrière-plans de couleur solide, qui nécessitent souvent un réglage de réglage fin ou de décalage de bruit dans les modèles de diffusion.
Pour obtenir une formation efficace, le processus de formation de Meissonic est décomposé en quatre étapes soigneusement conçues:
La première étape: comprendre les concepts de base à partir de données massives. Meissonic utilise l'ensemble de données LAION-2B filtré pour s'entraîner à une résolution 256 × 256 pour apprendre les concepts de base.
Étape 2: Alignez le texte et les images avec de longues invites. La résolution de formation est améliorée à 512 × 512, et des paires de texte d'image synthétiques de haute qualité et des ensembles de données internes sont utilisés pour améliorer la capacité du modèle à comprendre de longs indices descriptifs.
Étape 3: Compression des fonctionnalités maître pour atteindre une génération de résolution plus élevée. En introduisant des couches de compression de caractéristiques, Meissonic peut passer de manière transparente de 512 × 512 à 1024 × 1024 et formé avec des paires sélectionnées de texte d'image haute résolution de haute qualité.
Étape 4: Optimiser la génération d'images esthétique haute résolution. À ce stade, le modèle utilise un taux d'apprentissage plus petit pour le réglage fin et ajoute des scores de préférence humaine en tant que microconditions pour améliorer les performances du modèle dans la génération d'images de haute qualité.
Meissonic démontre des performances et une efficacité supérieures à travers une gamme de mesures quantitatives et qualitatives, y compris les HP, les MP, l'analyse comparative générique et l'évaluation GPT4O. Par rapport à Dall-E2 et SDXL, Meissonic a atteint des performances concurrentielles dans la performance humaine et l'alignement du texte, tout en montrant son efficacité.
De plus, Meissonic a bien fonctionné dans l'édition d'image à image à l'échantillon zéro. Sur l'ensemble de données EMU-Edit, Meissonic a obtenu des résultats principaux dans sept opérations différentes, y compris les changements de fond, les changements de contenu d'image, les changements de style, la suppression d'objets, les ajouts d'objets, les modifications locales et les modifications de couleur / texture, dont aucun n'a besoin Pour s'entraîner ou affiner sur des données ou des ensembles d'instructions spécifiques à l'édition d'image.
Adresse du projet: https://github.com/viiika/meissonic
Adresse papier: https://arxiv.org/pdf/2410.08261
En résumé, les modèles Meissonic ont fait des percées importantes dans l'efficacité et la qualité de la génération d'images, fournissant de nouvelles directions pour le développement de futurs modèles de vision linguistique. Ses fonctionnalités légères lui permettent de fonctionner sur le matériel de consommation et de démontrer ses capacités puissantes en édition d'image d'échantillon zéro, avec de larges prospects d'application.