Beijing Zhipu Huazhang Technology Co., Ltd. a publié son modèle de base et ses services d'application de nouvelle génération le 29 août 2024 et en a fait la démonstration en détail lors de la conférence KDD2024. Cette mise à jour couvre plusieurs modalités telles que le langage, les images et les vidéos, et lance une nouvelle application pour les utilisateurs finaux C, marquant que Zhipu a fait des progrès significatifs dans le domaine de l'intelligence artificielle, et que sa force technique et ses capacités d'innovation ont été encore améliorées. . Vous trouverez ci-dessous une explication détaillée de cette mise à jour.
Lors de la conférence KDD2024, Zhipu a publié une nouvelle génération de modèles de base, notamment le modèle de langage GLM-4-Plus, le modèle de graphique Vincent CogView-3-Plus, le modèle de compréhension d'image/vidéo GLM-4V-Plus et le modèle de génération vidéo. CogVidéoX. Ces modèles ont atteint des niveaux de premier plan internationaux dans leurs domaines respectifs. Les performances du modèle GLM-4-Plus ont été considérablement améliorées en termes de compréhension du langage, de suivi des instructions et de traitement de textes longs, et sont comparables à celles des modèles de premier niveau tels que GPT-4o. Le modèle CogView-3-Plus utilise l'architecture Transformer pour remplacer l'architecture UNet traditionnelle, qui optimise l'effet de modèle, et ses performances sont proches des modèles de première ligne tels que MJ-V6 et FLUX. Le modèle GLM-4V-Plus possède des capacités de compréhension d'image et de compréhension vidéo de haute qualité, devenant ainsi la première API nationale de modèle de compréhension vidéo générale. Après la sortie de la version 2B, le modèle CogVideoX a encore ouvert la version 5B, avec des performances améliorées, devenant ainsi le leader parmi les modèles actuels de génération vidéo open source. En outre, Zhipu a lancé le premier service d'appel vidéo de Chine pour les utilisateurs finaux C sur « l'application Qingyan ». Ce service couvre les modes texte, audio et vidéo et dispose de capacités de raisonnement en temps réel, offrant aux utilisateurs une expérience interactive fluide. Zhipu a également annoncé l'utilisation gratuite de l'API GLM-4-Flash, qui présente des avantages en termes de vitesse et de performances, permettant aux utilisateurs de créer des modèles et des applications exclusifs rapidement et gratuitement. Dans le même temps, afin de répondre aux besoins des différents utilisateurs, Zhipu propose des fonctions de réglage fin du modèle. Zhipu a déclaré qu'il continuerait à aller de l'avant, en faisant penser aux machines comme les humains et en apportant des technologies et des services plus avancés aux utilisateurs.
En outre, Zhipu a lancé le premier service d'appel vidéo de Chine pour les utilisateurs du niveau C sur l'application « Qingyan ». Ce service couvre les modes texte, audio et vidéo et dispose de capacités de raisonnement en temps réel, offrant aux utilisateurs une expérience interactive fluide.
Zhipu a également annoncé l'utilisation gratuite de l'API GLM-4-Flash, qui présente des avantages en termes de vitesse et de performances, permettant aux utilisateurs de créer des modèles et des applications exclusifs rapidement et gratuitement. Dans le même temps, afin de répondre aux besoins des différents utilisateurs, Zhipu propose des fonctions de réglage fin du modèle.
Zhipu a déclaré qu'il continuerait à aller de l'avant, en faisant penser aux machines comme les humains et en apportant des technologies et des services plus avancés aux utilisateurs.
Mises à jour majeures :
Modèle de base linguistique GLM-4-Plus : ses performances ont été considérablement améliorées en termes de compréhension de la langue, de suivi des instructions et de traitement de textes longs, maintenant ainsi le premier niveau international.
Modèle de base du diagramme Vincent CogView-3-Plus : offre des performances proches des meilleurs modèles actuels tels que MJ-V6 et FLUX.
Modèle de base de compréhension d'image/vidéo GLM-4V-Plus : il possède d'excellentes capacités de compréhension d'image et des capacités de compréhension vidéo basées sur la perception du temps. Le modèle sera lancé sur la plateforme ouverte (bigmodel.cn) et deviendra la première API générale de modèle de compréhension vidéo en Chine.
Modèle de base de génération vidéo CogVideoX : après la sortie et la version open source de la version 2B, la version 5B a également été officiellement open source. Ses performances ont été encore améliorées et constituent le meilleur choix parmi les modèles de génération vidéo open source actuels.
« Qingyan APP » a lancé les appels vidéo : le premier service d'appel vidéo national ouvert aux utilisateurs de l'extrémité C. La fonction d'appel vidéo de « Qingyan APP » couvre les modes texte, audio et vidéo et dispose de capacités de raisonnement en temps réel.
API GLM-4-Flash : Le service d'inférence est entièrement gratuit et fournit des services de réglage fin.
Lien vers l'application du service d'appel vidéo :
https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf
Dans l'ensemble, la mise à jour technologique de Zhipu Huazhang démontre sa forte force et ses capacités d'innovation continue dans le domaine de l'intelligence artificielle, apporte des technologies et des services plus avancés aux utilisateurs et injecte une nouvelle vitalité dans le développement de l'industrie de l'intelligence artificielle.