Des équipes de recherche d'institutions telles que l'Université chinoise de Hong Kong et l'Académie chinoise des sciences ont récemment lancé un paradigme de pré-formation entièrement modal appelé MiCo, qui a permis de réaliser des progrès décisifs dans le domaine de l'apprentissage multimodal et d'actualiser 37 -les enregistrements de performances de pointe (SOTA). MiCo vise à créer une intelligence entièrement modale capable de comprendre n'importe quelle modalité et d'apprendre des représentations universelles, et simule le processus cognitif multimodal du cerveau humain en introduisant davantage de modalités, de volumes de données et de paramètres de modèle. L'essentiel est de diviser les différents modes en « mode connaissance » et « mode interface », et de concevoir une architecture d'apprentissage entièrement modale correspondante, en utilisant un contexte multimodal pour renforcer le renforcement mutuel entre les modalités et construire des relations contextuelles intermodales. Ce résultat de recherche fournit de nouvelles orientations et idées pour le développement du domaine de l’intelligence artificielle.
Nouvelles de ChinaZ.com du 17 juin : Une équipe de recherche de l'Université chinoise de Hong Kong, de l'Académie chinoise des sciences et d'autres institutions a proposé un paradigme de pré-formation entièrement modal appelé MiCo (Multimodal Context). Cette méthode a donné des résultats remarquables. ont été réalisés dans le domaine de l'apprentissage multimodal, établissant 37 records de performances de pointe (SOTA).
Fonctionnalités principales :
Compréhension entièrement modale : MiCo vise à créer une intelligence entièrement modale capable de comprendre n'importe quelle modalité et d'apprendre des représentations universelles.
Pré-entraînement à grande échelle : en introduisant davantage de modalités, de volumes de données et de paramètres de modèle, MiCo simule le processus cognitif multimodal du cerveau humain pendant le processus de pré-entraînement.
Conception de la structure du réseau neuronal : MiCo divise les différents modes en « mode connaissance » et « mode interface » et conçoit une architecture d'apprentissage entièrement modale correspondante, qui est alignée via des méthodes de raisonnement génératif.
Contexte multimodal et loi d'échelle : MiCo utilise le contexte multimodal pour renforcer le renforcement mutuel entre les modalités et construire des relations contextuelles intermodales.
Les résultats expérimentaux montrent :
Dans le test de perception monomodal de 10 modes différents, MiCo a obtenu 7 résultats SOTA.
Dans 25 tâches de compréhension intermodale, y compris la récupération, les questions et réponses, la description, etc., MiCo a obtenu 20 résultats SOTA.
Lors de 18 tests de référence de modèles de langage multimodaux à grande échelle, MiCo a obtenu un total de 10 résultats SOTA.
La méthode de pré-formation de MiCo :
L’équipe a utilisé des vidéos et des paires audio, des descriptions textuelles, de la profondeur et des normales pour un pré-entraînement conjoint afin de simuler les capacités de perception visuelle, auditive et spatio-temporelle du cerveau humain.
Les relations contextuelles multimodales sont construites en extrayant des caractéristiques multimodales à l'aide d'un encodeur entièrement modal (tel que ViT) et en extrayant des caractéristiques de texte à l'aide d'un encodeur de texte.
Conclusion et travaux futurs :
Le projet MiCo est une tentative importante de l'intelligence artificielle pour simuler la cognition multimodale du cerveau humain. L'équipe espère qu'il inspirera les recherches futures et développera des modèles de base entièrement modaux plus puissants.
Les plans de travail futurs incluent la combinaison de davantage de modalités, telles que le flux optique, les données IMU et les fichiers d'événements, pour continuer à améliorer la pré-formation conjointe entièrement modale.
Les performances exceptionnelles de MiCo ont établi une nouvelle référence dans le domaine de l'apprentissage multimodal. Son potentiel de développement futur est énorme et mérite une attention continue. L’orientation future de la recherche de l’équipe mérite également d’être attendue avec impatience, et je pense que MiCo continuera à promouvoir les progrès de la technologie de l’intelligence artificielle.