L'éditeur de Downcodes a appris que Google DeepMind et le Massachusetts Institute of Technology (MIT) ont réalisé une avancée majeure dans le domaine de la génération de texte en image. Le nouveau modèle autorégressif Fluid qu'ils ont développé présente d'excellentes performances à une échelle de paramètres de 10,5 milliards, bouleversant la compréhension de l'industrie des modèles autorégressifs dans le domaine de la génération d'images. Le cœur de cette recherche réside dans l’introduction innovante d’éléments de mots continus et d’un ordre de génération aléatoire, ce qui améliore considérablement les performances et l’évolutivité du modèle et apporte une nouvelle direction à la technologie de génération d’images.
Google DeepMind et le Massachusetts Institute of Technology (MIT) ont récemment publié un résultat de recherche majeur. Le nouveau modèle autorégressif Fluid développé par l'équipe de recherche a fait des progrès révolutionnaires dans le domaine de la génération de texte en image. Le modèle présente d'excellentes performances après avoir été étendu à une échelle de 10,5 milliards de paramètres.
Cette recherche bouleverse la perception commune dans l’industrie. Auparavant, bien que les modèles autorégressifs dominaient le domaine du traitement du langage, ils étaient considérés comme inférieurs aux modèles de diffusion tels que Stable Diffusion et Google Imagen3 en termes de génération d'images. Les chercheurs ont considérablement amélioré les performances et l'évolutivité du modèle autorégressif en introduisant de manière innovante deux facteurs de conception clés : l'utilisation d'éléments de mots continus au lieu d'éléments de mots discrets et l'introduction d'un ordre généré aléatoirement au lieu d'un ordre fixe.
En termes de traitement de l’information image, les éléments de mots continus présentent des avantages évidents. Les jetons discrets traditionnels codent les régions d'image en codes dans un vocabulaire limité. Cette approche conduit inévitablement à une perte d'informations, et il est difficile, même pour les grands modèles, de générer avec précision des caractéristiques détaillées telles que des yeux symétriques. Les éléments de mots continus peuvent enregistrer des informations plus précises et améliorer considérablement la qualité de la reconstruction de l'image.
L’équipe de recherche a également innové dans la séquence de génération d’images. Les modèles autorégressifs traditionnels génèrent généralement des images dans un ordre fixe de gauche à droite et de haut en bas. Les chercheurs ont essayé une approche séquentielle randomisée, permettant au modèle de prédire plusieurs pixels à n'importe quel endroit à chaque étape. Cette méthode fonctionne bien dans les tâches qui nécessitent une bonne compréhension de la structure globale de l'image et a obtenu des avantages significatifs dans le test de référence GenEval qui mesure la correspondance du texte et des images générées.
Les performances réelles du modèle Fluid confirment la valeur de la recherche. Après avoir été étendu à 10,5 milliards de paramètres, Fluid a surpassé les modèles existants dans plusieurs benchmarks importants. Il est à noter que le petit modèle Fluid avec seulement 369 millions de paramètres a atteint le score FID (7,23) du modèle Parti avec 20 milliards de paramètres sur l'ensemble de données MS-COCO.
Ce résultat de recherche montre que les modèles autorégressifs comme Fluid sont susceptibles de devenir de puissantes alternatives aux modèles de diffusion. Par rapport aux modèles de diffusion qui nécessitent plusieurs passages aller et retour, Fluid n'a besoin que d'un seul passage pour générer des images. Cet avantage en termes d'efficacité deviendra plus évident à mesure que le modèle sera étendu.
Ces recherches apportent de nouvelles possibilités dans le domaine de la génération texte-image, et l'émergence du modèle Fluid marque également l'essor des modèles autorégressifs dans le domaine de la génération d'images. À l’avenir, nous pouvons nous attendre à davantage d’applications et d’améliorations basées sur les modèles Fluid pour promouvoir davantage l’avancement de la technologie de génération d’images par intelligence artificielle. L'éditeur de Downcodes continuera à prêter attention aux derniers développements dans ce domaine et à proposer un contenu plus passionnant aux lecteurs.