Seulement un milliard de paramètres ! Modèle de génération d'images IA Meissonic AI peut générer des images de haute qualité sur les téléphones mobiles

Auteur：Eve Cole Date de mise à jour：2024-12-10 10:48:01

L'éditeur de Downcodes rapporte : Un modèle de génération d'images IA open source appelé Meissonic a vu le jour. Il peut générer des images de haute qualité en utilisant seulement un milliard de paramètres. Il peut être qualifié de géant léger dans le domaine de la génération d'images IA ! Cela est dû à l'architecture unique du convertisseur et aux nouvelles méthodes de formation adoptées par l'équipe R&D (chercheurs d'Alibaba, Skywork AI et plusieurs universités). Meissonic peut non seulement fonctionner sur des PC de jeu ordinaires, mais devrait également mettre en œuvre à l'avenir des applications texte-image localisées sur les téléphones mobiles, ce qui réduira considérablement le seuil d'entrée pour la génération d'images IA.

Récemment, l’équipe de recherche scientifique a lancé conjointement un modèle open source de génération d’images IA appelé Meissonic. Étonnamment, ce modèle peut générer des images de haute qualité en utilisant seulement un milliard de paramètres. Cette conception compacte donne à Meissonic la possibilité de localiser des applications de synthèse texte-image sur des appareils mobiles.

L'équipe R&D derrière cette technologie comprend des chercheurs d'Alibaba, de Skywork AI et de plusieurs universités. Ils ont utilisé une architecture de convertisseur unique et de nouvelles méthodes de formation pour permettre à Meisonic de fonctionner sur des PC de jeu classiques et peut-être même sur des téléphones mobiles à l'avenir.

La méthode de formation de Meissonic utilise une technique appelée « modélisation d’image masquée », ce qui signifie simplement qu’une partie de l’image est cachée pendant le processus de formation. Le modèle apprend à reconstruire les pièces manquantes en fonction des régions visibles et des descriptions textuelles. Cette approche aide le modèle à comprendre la relation entre les éléments de l'image et le texte.

L'architecture de Meissonic lui permet de générer des images haute résolution de 1024x1024 pixels, qu'il s'agisse de scènes réalistes ou de textes stylisés, d'émoticônes ou même d'autocollants de dessins animés.

Contrairement aux modèles autorégressifs traditionnels qui génèrent progressivement des images, Meissonic prédit toutes les informations d'image en même temps grâce à une optimisation itérative parallèle. Cette innovation réduit considérablement les étapes de décodage, réduisant le temps d'environ 99 %, et améliore considérablement la vitesse de génération d'images.

Dans le processus de construction du modèle, les chercheurs ont suivi quatre étapes :

Tout d'abord, ils ont utilisé 200 millions d'images de 256 x 256 pixels pour enseigner les concepts de base du modèle ; ensuite, ils ont utilisé 10 millions de paires image-texte strictement filtrées pour améliorer ses capacités de compréhension du texte, puis, en ajoutant une couche de compression spéciale, le modèle a pu produire un résultat ; Images 1 024 x 1 024 pixel par pixel ; enfin, ils ont effectué des réglages précis intégrant des données sur les préférences humaines pour améliorer les performances du modèle.

Il est intéressant de noter que malgré un plus petit nombre de paramètres, Meissonic a surpassé certains modèles plus grands tels que SDXL et DeepFloyd-XL sur plusieurs tests, atteignant un « score de préférence humaine » élevé de 28,83. De plus, Meissonic est capable de corriger et d'étendre les images sans formation supplémentaire, permettant aux utilisateurs d'ajouter facilement des parties d'image manquantes ou d'améliorer de manière créative les images existantes.

L’équipe de recherche estime que cette méthode pourrait favoriser le développement rapide et peu coûteux de générateurs d’images IA personnalisés, et devrait également favoriser le développement d’applications de conversion texte-image sur les appareils mobiles. Les amis intéressés peuvent trouver la version de démonstration sur Hugging Face et consulter le code du modèle sur GitHub, qui peut être facilement exécuté sur un GPU grand public doté de 8 Go de mémoire vidéo ordinaire.

démo :https://huggingface.co/spaces/MeissonFlow/meissonic

Projet : https://github.com/viiika/Meissonic

Souligner:

Meissonic est un modèle d'IA open source capable de générer des images de haute qualité avec seulement un milliard de paramètres, adaptés à une utilisation sur les PC de jeu ordinaires et les futurs appareils mobiles.

Grâce à une méthode de formation à l'optimisation itérative parallèle, Meissonic peut générer des images 99 % plus rapidement que les modèles traditionnels.

? Malgré la petite taille de ses paramètres, Meissonic surpasse les modèles plus grands dans de multiples tests et permet une inpainting et une expansion d'image sans formation.

Dans l’ensemble, l’émergence de Meissonic a apporté de nouvelles possibilités dans le domaine de la génération d’images IA. Sa conception légère et ses performances efficaces méritent d’être attendues ! L'éditeur de Downcodes recommande à tout le monde de se rendre sur Hugging Face et GitHub pour découvrir et explorer ce puissant modèle d'IA.