Ces dernières années, la technologie des grands modèles de langage (LLM) s'est développée rapidement et le modèle de langage visuel, en tant que branche importante, a reçu une large attention. En Chine notamment, des universités telles que l'Université Tsinghua et l'Université du Zhejiang promeuvent activement la recherche et le développement de modèles visuels open source, injectant une nouvelle vitalité dans le développement du domaine national de l'intelligence artificielle. Cet article se concentrera sur plusieurs modèles de vision open source de haut niveau et analysera leur potentiel dans le domaine du traitement de la vision.
Des universités telles que l'Université Tsinghua et l'Université du Zhejiang ont promu des alternatives open source au GPT-4V, et une série de modèles visuels open source offrant d'excellentes performances ont vu le jour en Chine. Parmi eux, LLaVA, CogAgent et BakLLaVA ont beaucoup retenu l'attention. LLaVA a démontré des capacités proches des niveaux GPT-4 en matière de chat visuel et de réponse aux questions de raisonnement, tandis que CogAgent est un modèle de langage visuel open source amélioré sur CogVLM. De plus, BakLLaVA est un modèle de base Mistral7B amélioré grâce à l'architecture LLaVA1.5, qui offre de meilleures performances et capacités commerciales. Ces modèles de vision open source ont un grand potentiel dans le domaine du traitement de la vision.
L'émergence de modèles visuels open source tels que LLaVA, CogAgent et BakLLaVA marque les progrès significatifs de la Chine dans le domaine de l'intelligence artificielle, fournissant des outils et des ressources puissants aux universités et à l'industrie, et indique également que les modèles de langage visuel auront des perspectives d'application futures plus larges. promouvoir le développement durable de la technologie de l'intelligence artificielle et apporter des changements dans tous les domaines. L’open source de ces modèles abaisse également le seuil technique et favorise une innovation et une coopération plus larges.