Ces dernières années, le domaine de l'intelligence artificielle a fait de grands progrès dans l'intégration de la vision et du langage, notamment avec l'émergence de modèles de langage à grande échelle, qui ont insufflé une nouvelle vitalité au développement de systèmes d'intelligence artificielle multimodaux. Cependant, il reste encore des défis à relever pour construire des modèles fondamentaux solides de vision et de langage visuel. Afin de relever ce défi, des chercheurs de nombreuses universités et instituts de recherche renommés ont collaboré pour développer un modèle innovant appelé InternVL, qui vise à améliorer l'échelle et la polyvalence du modèle de vision de base afin de mieux faire face à diverses tâches de langage de vision.
Récemment, le domaine de l’intelligence artificielle s’est concentré sur l’intégration transparente de la vision et du langage, notamment avec l’émergence des grands modèles de langage (LLM), qui ont fait des progrès significatifs. Cependant, pour les systèmes AGI multimodaux, le développement de modèles de base de vision et de langage visuel doit encore rattraper son retard. Pour combler cette lacune, des chercheurs de l'Université de Nanjing, d'OpenGVLab, du Laboratoire d'intelligence artificielle de Shanghai, de l'Université de Hong Kong, de l'Université chinoise de Hong Kong, de l'Université Tsinghua, de l'Université des sciences et technologies de Chine et de SenseTime Research ont proposé un modèle innovant : InternVL. Ce modèle élargit l'échelle des modèles basés sur la vision et les adapte aux tâches générales de langage visuel. InternVL démontre ses capacités supérieures dans des tâches aussi diverses que la classification d'images et de vidéos, la récupération de textes d'images et de vidéos, le sous-titrage d'images, la réponse visuelle aux questions et le dialogue multimodal en surpassant les méthodes existantes sur 32 références générales de langage visuel.L'émergence du modèle InternVL marque une nouvelle étape dans le développement de modèles de langage visuel. Ses excellents résultats dans plusieurs tests de référence offrent de nouvelles orientations et possibilités pour la construction de futurs systèmes d'intelligence artificielle multimodaux. On s'attend à ce que ce modèle puisse jouer un rôle dans des applications plus pratiques à l'avenir et promouvoir le développement et l'application de la technologie de l'intelligence artificielle.