L'équipe de LeCun et Xie Senin a publié l'impressionnant modèle de langage multimodal à grande échelle Cambrian-1, qui est un travail innovant qui donne la priorité à la vision. Il ne s’agit pas seulement d’une avancée technologique, mais représente également une nouvelle réflexion sur la recherche sur l’apprentissage multimodal. Sa nature open source fournit des ressources précieuses aux chercheurs et aux développeurs. La conception de Cambrian-1 s'articule autour de cinq éléments principaux : l'apprentissage de la représentation visuelle, la conception des connecteurs, les données de réglage précis des instructions, la stratégie de réglage précis des instructions et les tests de référence. Il fonctionne bien sur les tâches de langage visuel et est même comparable à certains modèles propriétaires de premier plan. . Cependant, l'équipe de recherche a également franchement souligné les lacunes du modèle en termes de capacités de dialogue et a réagi activement en améliorant les méthodes de formation.
Dans le monde de l'IA, nous venons d'accueillir un nouveau membre accrocheur : Cambrian-1, un grand modèle de langage multimodal (MLLM) créé conjointement par des géants de l'industrie tels que LeCun et Xie Saining. L’émergence de ce modèle constitue non seulement un saut technologique, mais aussi une réflexion profonde sur la recherche sur l’apprentissage multimodal.
La philosophie de conception de Cambrian-1 donne la priorité à la vision, ce qui est particulièrement précieux dans la recherche actuelle sur l’IA centrée sur le langage. Cela nous rappelle que le langage n’est pas le seul moyen pour les humains d’acquérir des connaissances et que les expériences sensorielles telles que la vision, l’ouïe et le toucher sont tout aussi importantes. L'open source de Cambrian-1 constitue une ressource précieuse pour tous les chercheurs et développeurs intéressés par l'apprentissage multimodal.
La construction de ce modèle s'articule autour de cinq éléments principaux : l'apprentissage de la représentation visuelle, la conception des connecteurs, les données de réglage fin des instructions, la stratégie de réglage fin des instructions et les tests de référence. Chaque élément constitue une exploration approfondie de l'espace de conception MLLM et reflète les connaissances uniques de l'équipe de recherche sur les problèmes existants.
Il convient de mentionner que les performances de Cambrian-1 dans les tâches de langage visuel sont impressionnantes. Non seulement il surpasse les autres modèles open source, mais il égale même les meilleurs modèles propriétaires du secteur sur certains critères. Derrière cette réussite se cache la réflexion innovante de l’équipe de recherche sur le réglage fin de l’instruction et la conception des connecteurs.
Cependant, le parcours de recherche de Cambrian-1 n’a pas été sans heurts. Les chercheurs ont découvert que même les MLLM bien formés peuvent avoir des déficiences en matière de capacités conversationnelles, un phénomène connu sous le nom de « phénomène de répondeur ». Pour résoudre ce problème, ils ont ajouté des invites système à la formation pour encourager le modèle à s'engager dans des conversations plus riches.
Le succès de Cambrian-1 est indissociable de la solide équipe de recherche qui le soutient. Parmi eux, Shengbang Tong est l'un des auteurs de l'article, et sa contribution ne peut être ignorée. Il étudie actuellement en doctorat à l'Université de New York, sous la direction du professeur Yann LeCun et du professeur Xie Saining. Ses intérêts de recherche couvrent les modèles mondiaux, l'apprentissage non supervisé/auto-supervisé, les modèles génératifs et les modèles multimodaux.
L'open source de Cambrian-1 apporte une bouffée d'air frais à la communauté de l'IA. Il fournit non seulement un puissant outil d’apprentissage multimodal, mais incite également les gens à réfléchir en profondeur à la recherche sur l’apprentissage multimodal. Alors que de plus en plus de chercheurs et de développeurs se joignent à l’exploration de Cambrian-1, nous avons des raisons de croire qu’il deviendra une force importante dans la promotion du développement de la technologie de l’IA.
Adresse du projet : https://github.com/cambrian-mllm/cambrian
Article : https://arxiv.org/abs/2406.16860
L'émergence de Cambrian-1 a apporté de nouvelles possibilités dans le domaine de l'IA multimodale, et sa nature open source encourage également une coopération et une innovation plus larges. Nous espérons que Cambrian-1 pourra démontrer ses puissantes capacités dans davantage de domaines à l’avenir et promouvoir l’avancement continu de la technologie de l’IA.