Hugging Face a publié un modèle léger de génération de texte en image appelé aMUSEd, qui est basé sur l'architecture Masked Image Model (MIM) et réduit considérablement le temps de génération d'image. Par rapport aux modèles texte-image traditionnels, aMUSEd offre des améliorations significatives en termes de vitesse et d'interprétabilité, et sa capacité à générer rapidement des images est impressionnante. Le modèle aMUSEd est actuellement disponible en avant-première de recherche sur la plateforme Hugging Face et adopte une licence OpenRAIL pour encourager la participation et les contributions de la communauté.
Le modèle aMUSEd lancé par Hugging Face peut générer des images en quelques secondes. Il adopte un modèle texte-image léger et utilise l'architecture Masked Image Model (MIM), qui réduit considérablement les étapes de raisonnement et améliore la vitesse de génération et l'interprétabilité. Le modèle aMUSEd peut être essayé dans une démo sur Hugging Face et est actuellement disponible en avant-première de recherche sous licence OpenRAIL, où la communauté est encouragée à explorer davantage le cadre de non-diffusion pour la génération d'images.La capacité de génération rapide et la licence ouverte du modèle aMUSEd lui confèrent un grand potentiel de développement. Il devrait jouer un rôle plus important dans le domaine de la génération d'images à l'avenir et ouvre également une nouvelle direction pour le développement de la technologie de l'intelligence artificielle. Nous attendons avec impatience que la communauté explore et optimise davantage ce modèle.