Zhipu lance les modèles GLM-4-Air et GLM-4V-Plus et établit des modèles gratuits Flash en mode complet - Article AI

Auteur：Eve Cole Date de mise à jour：2025-01-28 23:00:02

Beijing Zhipu Huazhang Technology Co., Ltd. a publié une série de mises à jour majeures le 16 janvier 2025, notamment le nouveau modèle de bout en bout GLM-Realtime et des versions améliorées de GLM-4-Air, GLM-4V-Plus et autres. modèles. Tous Tous les modèles ont été lancés sur la plateforme bigmodel.cn. Cette mise à jour couvre plusieurs modalités telles que le langage, la voix, l'image et la vidéo, démontrant les profondes capacités d'accumulation et d'innovation de Zhipu dans le domaine de la technologie multimodale de grands modèles, et a spécialement lancé un modèle gratuit Flash entièrement modal, visant à abaisser le seuil de application des grands modèles et promouvoir le développement inclusif de la technologie des grands modèles.

Beijing Zhipu Huazhang Technology Co., Ltd. a annoncé le lancement d'une série de nouveaux modèles le 16 janvier 2025 et les a lancés sur bigmodel.cn. Suite au lancement de "Zhipu Qingyan" en août, la société a mené une exploration approfondie dans les domaines de la compréhension et de la génération du langage, de la parole, de l'image et de la vidéo, et a lancé des modèles multimodaux tels que GLM-Voice, GLM-4V, CogView et CogVideoX.

Le nouveau modèle de bout en bout GLM-Realtime publié cette fois permet une compréhension vidéo et une interaction vocale à faible latence, intègre une fonction a cappella et prend en charge jusqu'à 2 minutes de mémoire et de fonctions d'appel de fonction. La société a également mis à niveau simultanément les modèles GLM-4-Air et GLM-4V-Plus, et s'engage à fournir les solutions de modèles de langage les plus performantes et les plus rentables du secteur. Zhipu s'est toujours engagé à redonner à la société avec une technologie avancée de grands modèles et a spécialement mis en place des modèles gratuits Flash en mode complet, couvrant plusieurs scénarios tels que la langue, les images de texte, les vidéos de texte et la compréhension des images, pour aider les développeurs à réaliser facilement innovations applicatives.

微信截图_20250116150923.png

GLM-Realtime dispose d'une capacité de mémoire de contenu de 2 minutes pour les appels vidéo et implémente de manière innovante une fonction de chant a cappella dans l'interaction vocale, permettant aux grands modèles de chanter dans les conversations. La société intègre l'API Realtime dans les lunettes intelligentes et les poupées compagnons afin que les utilisateurs puissent expérimenter une interaction en temps quasi réel avec des assistants intelligents. Realtime prend en charge en outre la fonction Function Call, qui peut s'appuyer sur ses propres connaissances et capacités pour appeler de manière flexible des connaissances et des outils externes afin de s'étendre à un plus large éventail de scénarios commerciaux. L'API GLM-Realtime a été lancée sur la plateforme ouverte bigmodel.cn et est actuellement disponible en appel gratuit.

GLM-4-Air est populaire auprès des développeurs pour ses performances élevées depuis son lancement. Cette fois, il a été entièrement mis à niveau vers GLM-4-Air-0111. En optimisant les données et les processus de formation, ses performances dans certaines dimensions sont proches. celui du plus grand GLM-4-Plus, dans le même temps, le prix du modèle est réduit à 50 % du prix d'origine, abaissant ainsi le seuil d'application des grands modèles. Le modèle de compréhension visuelle GLM-4V-Plus a également été entièrement mis à niveau. La nouvelle version a considérablement amélioré les performances sur plusieurs listes publiques. Elle prend en charge la fonction de résolution variable, s'adapte à la saisie d'images de différentes tailles, réduit considérablement la consommation de jetons dans les scénarios de petites images. et prend en charge la reconnaissance 4K ultra-claire des images et des images au format d'image extrême, avec des capacités de compréhension vidéo allant jusqu'à 2 heures, offrant des solutions efficaces et précises pour la compréhension et l'analyse de vidéos longues.

Zhipu s'engage en faveur de l'inclusivité des grands modèles Afin d'aider les développeurs à innover, il a spécialement mis en place une API de modèle inclusif de la série Flash, gratuite et ouverte à l'ensemble de la société. En tant que premier modèle de série gratuit entièrement modal du secteur, les développeurs peuvent appeler gratuitement des fonctions de langage, de compréhension multimodale et de génération multimodale. Dans un avenir proche, la série Flash sera entièrement mise à niveau, y compris le modèle de langage GLM-4-Flash, le modèle de compréhension d'image GLM-4V-Flash, le modèle de génération d'images CogView-3-Flash et le modèle de génération vidéo CogVideoX-Flash.

Les mises à niveau et les nouveaux modèles publiés par Zhipu Huazhang démontrent non seulement sa forte force technique dans le domaine de l'intelligence artificielle, mais reflètent également sa détermination à promouvoir l'universalisation de la technologie des grands modèles, offrant aux développeurs et aux utilisateurs une IA plus pratique et plus puissante. outils, il vaut la peine d’attendre avec impatience l’émergence d’applications plus innovantes à l’avenir.