L'Institut de recherche Zhiyuan a récemment publié une nouvelle génération de modèle de base multimodal Emu2, qui a réalisé des avancées significatives dans les capacités d'apprentissage du contexte multimodal. Grâce à un pré-entraînement multimodal génératif autorégressif à grande échelle, Emu2 fonctionne bien dans des tâches de compréhension multimodale sur quelques échantillons, surpassant les modèles traditionnels tels que Flamingo-80B et IDEFICS-80B, et a bien performé dans plusieurs tâches de compréhension sur quelques échantillons, réponse visuelle aux questions et obtention de performances optimales sur les tâches de génération d'images. Emu2 contient deux applications principales : Emu2-Chat et Emu2-Gen, qui se concentrent respectivement sur la compréhension des instructions d'images et de texte et sur la génération d'images/vidéos.
L'Institut de recherche Zhiyuan a publié une nouvelle génération de modèle de base multimodal Emu2, qui favorise de manière significative les percées dans les capacités d'apprentissage du contexte multimodal grâce à une pré-formation multimodale générative autorégressive à grande échelle. Emu2 fonctionne bien sur quelques échantillons de tâches de compréhension multimodale, surpassant les grands modèles multimodaux pré-entraînés grand public Flamingo-80B et IDEFICS-80B. Emu2 a atteint des performances optimales dans plusieurs tâches de compréhension en quelques plans, de réponse visuelle aux questions et de génération d'images. Emu2-Chat peut comprendre avec précision les instructions graphiques et textuelles pour obtenir une meilleure perception des informations, une meilleure compréhension des intentions et une meilleure planification de la prise de décision. Emu2-Gen peut accepter des images, du texte et des séquences de positions entrelacées en entrée pour obtenir une génération d'images et de vidéos flexibles, contrôlables et de haute qualité. Emu2 adopte un cadre de modélisation plus simple et adapte le modèle aux paramètres 37B. Pour plus de détails, veuillez vous référer au lien du projet publié par l'Institut de recherche Zhiyuan.Avec ses performances puissantes et son cadre concis, Emu2 démontre les derniers progrès dans le domaine de l'intelligence artificielle multimodale et fournit une base solide pour le développement de futures applications multimodales. L'innovation continue de l'Institut de recherche Zhiyuan mérite d'être attendue.