Zhipu AI a récemment rendu open source son modèle de langage visuel CogAgent, qui est un outil puissant avec une taille de paramètres de 18 milliards et d'excellentes performances en matière de compréhension et de navigation de l'interface graphique. CogAgent prend en charge la saisie visuelle haute résolution et les questions-réponses conversationnelles, peut effectuer des questions-réponses sur la base de n'importe quelle capture d'écran de l'interface graphique et prend en charge les tâches liées à l'OCR. Sa pré-formation et son réglage ont considérablement amélioré les capacités du modèle. Les utilisateurs peuvent effectuer un raisonnement sur des tâches en téléchargeant des captures d'écran et en obtenant des plans, des actions à venir et des informations spécifiques sur les coordonnées des opérations, offrant ainsi aux utilisateurs une expérience interactive plus pratique et plus efficace. Ce modèle a atteint les performances générales SOTA dans plusieurs tests de référence, démontrant son leadership technique dans le domaine du langage visuel.
L'open source de CogAgent apporte un nouvel outil puissant à la communauté de l'IA, et ses capacités de compréhension et d'interaction avec l'interface graphique devraient promouvoir le développement de nombreux scénarios d'application. Nous pensons que CogAgent jouera un rôle important dans davantage de domaines à l'avenir et continuera à s'améliorer pour fournir aux utilisateurs des services plus complets.