L'éditeur de Downcodes vous fera découvrir Meissonic, un modèle de génération de texte en image avec seulement 1 milliard de paramètres pouvant générer des images haute définition 1024×1024. Il dépasse les limites des modèles tels que Stable Diffusion et élève la technologie de modélisation d'image de masque non autorégressive (MIM) à un nouveau niveau. Ses performances et son efficacité sont comparables à celles des meilleurs modèles de diffusion tels que SDXL. L'innovation de Meissonic réside dans sa conception architecturale unique, sa stratégie d'encodage positionnel avancée et ses conditions d'échantillonnage optimisées, qui lui permettent de fonctionner sur des GPU grand public sans optimisation supplémentaire. Ce qui est encore plus surprenant, c'est qu'il peut facilement générer des images avec des arrière-plans de couleur unie, ce qui nécessite généralement des ajustements complexes dans les modèles de diffusion.
Le cœur de Meisonic réside dans une série d’innovations architecturales, des stratégies avancées de codage de position et des conditions d’échantillonnage optimisées. Ces améliorations améliorent considérablement les performances et l’efficacité du MIM. De plus, Meissonic exploite des données d'entraînement de haute qualité, intègre un micro-conditionnement basé sur les scores de préférences humaines et utilise des couches de compression de fonctionnalités pour améliorer encore la fidélité et la résolution de l'image.
Contrairement aux modèles à grande diffusion tels que SDXL et DeepFloyd-XL, Meissonic ne dispose que d'un milliard de paramètres, mais peut générer des images de haute qualité avec une résolution de 1024 × 1024 et peut fonctionner sur des GPU grand public avec seulement 8 Go de mémoire vidéo sans aucun modèle supplémentaire. optimisation. De plus, Meissonic peut facilement générer des images avec des arrière-plans de couleur unie, ce qui, dans les modèles de diffusion, nécessite souvent un réglage précis du modèle ou des ajustements de compensation du bruit.
Afin de parvenir à une formation efficace, le processus de formation de Meissonic se décompose en quatre étapes soigneusement conçues :
La première étape : Comprendre les concepts de base à partir de données massives. Meissonic utilise l'ensemble de données filtrées LAION-2B pour s'entraîner à une résolution de 256 × 256 afin d'apprendre les concepts de base.
Phase 2 : Alignez le texte et les images à l’aide de pointes longues. La résolution d'entraînement est augmentée à 512 × 512, et des paires image-texte synthétiques de haute qualité et des ensembles de données internes sont utilisés pour améliorer la capacité du modèle à comprendre de longs indices descriptifs.
Étape 3 : Maîtriser la compression des fonctionnalités pour obtenir une génération de résolution plus élevée. En introduisant une couche de compression de fonctionnalités, Meissonic peut passer en toute transparence de la génération 512 × 512 à 1024 × 1024 et s'entraîner avec une sélection de paires image-texte haute résolution de haute qualité.
Étape 4 : Optimisation de la génération d’images esthétiques haute résolution. À ce stade, le modèle est affiné en utilisant un taux d'apprentissage plus faible et des scores de préférence humaine sont ajoutés en tant que microconditions pour améliorer les performances du modèle dans la génération d'images de haute qualité.
Meissonic démontre des performances et une efficacité supérieures sur une gamme de mesures quantitatives et qualitatives, notamment HPS, MPS, les benchmarks GenEval et les évaluations GPT4o. Comparé au DALL-E2 et au SDXL, Meissonic atteint des performances compétitives en termes de performances humaines et d'alignement de texte, tout en démontrant également sa grande efficacité.
De plus, Meissonic excelle dans l’édition d’image à image sans échantillon. Sur l'ensemble de données EMU-Edit, Meissonic a obtenu des résultats de premier plan dans sept opérations différentes, notamment le changement d'arrière-plan, le changement de contenu d'image, le changement de style, la suppression d'objet, l'ajout d'objet, la modification locale et le changement de couleur/texture, dont aucune ne nécessite de formation ou d'amende. -réglage de données ou de jeux d'instructions spécifiques à l'édition d'images.
Adresse du projet : https://github.com/viiika/Meissonic
Adresse papier : https://arxiv.org/pdf/2410.08261
Avec son efficacité et ses hautes performances, Meissonic apporte de nouvelles possibilités dans le domaine de la génération d'images. Sa conception légère facilite son utilisation par les utilisateurs de masse et fournit également de nouvelles idées pour les futures orientations de recherche. Les amis intéressés peuvent visiter l’adresse du projet et l’adresse de la thèse pour plus d’informations.