Zhipu lanza los modelos GLM-4-Air y GLM-4V-Plus y establece modelos libres de modo completo Flash: artículo de AI

Autor：Eve Cole Fecha de actualización：2025-01-28 23:00:02

Beijing Zhipu Huazhang Technology Co., Ltd. lanzó una serie de actualizaciones importantes el 16 de enero de 2025, incluido el nuevo modelo de extremo a extremo GLM-Realtime y versiones mejoradas de GLM-4-Air, GLM-4V-Plus y otros. modelos Todos Todos los modelos se han lanzado en la plataforma bigmodel.cn. Esta actualización cubre múltiples modalidades, como lenguaje, voz, imagen y video, lo que demuestra la profunda acumulación y las capacidades de innovación de Zhipu en el campo de la tecnología de modelos grandes multimodales, y lanzó especialmente un modelo gratuito Flash totalmente modal, con el objetivo de reducir el umbral de Aplicación de modelos grandes y promover el desarrollo inclusivo de tecnología de modelos grandes.

Beijing Zhipu Huazhang Technology Co., Ltd. anunció el lanzamiento de una serie de nuevos modelos el 16 de enero de 2025 y los lanzó en bigmodel.cn. Tras el lanzamiento de "Zhipu Qingyan" en agosto, la empresa ha realizado una exploración en profundidad en los campos de la comprensión y generación del lenguaje, el habla, la imagen y el vídeo, y ha lanzado modelos multimodales como GLM-Voice, GLM-4V, CogView y CogVideoX.

El nuevo modelo de extremo a extremo GLM-Realtime lanzado esta vez logra comprensión de video e interacción de voz de baja latencia, integra la función a capella y admite hasta 2 minutos de memoria y funciones de llamada de función. La compañía también ha actualizado simultáneamente los modelos GLM-4-Air y GLM-4V-Plus, y se compromete a proporcionar el rendimiento más sólido y las soluciones de modelos de lenguaje más rentables de la industria. Zhipu siempre se ha comprometido a retribuir a la sociedad con tecnología avanzada de modelos grandes y ha configurado especialmente modelos Flash gratuitos en modo completo, que cubren múltiples escenarios como lenguaje, imágenes de texto, videos de texto y comprensión de imágenes, para ayudar a los desarrolladores a lograr fácilmente innovación de aplicaciones.

微信截图_20250116150923.png

GLM-Realtime tiene una capacidad de memoria de contenido de 2 minutos para videollamadas e implementa de manera innovadora una función de canto a capella en la interacción de voz, lo que permite que modelos grandes canten en conversaciones. La empresa integra Realtime API en gafas inteligentes y muñecos complementarios para que los usuarios puedan experimentar una interacción casi en tiempo real con asistentes inteligentes. Realtime admite además la función Function Call, que puede confiar en su propio conocimiento y capacidades para llamar de manera flexible conocimientos y herramientas externos para expandirse a una gama más amplia de escenarios comerciales. La API GLM-Realtime se lanzó en la plataforma abierta bigmodel.cn y actualmente es gratuita.

GLM-4-Air ha sido popular entre los desarrolladores por su alto costo desde su lanzamiento. Esta vez se ha actualizado completamente a GLM-4-Air-0111. Al optimizar los datos y procesos de entrenamiento, su rendimiento en algunas dimensiones se acerca. Al mismo tiempo, el precio del modelo más grande se reduce al 50% del precio original, lo que reduce el umbral para la aplicación de modelos grandes. El modelo de comprensión visual GLM-4V-Plus también se ha actualizado por completo. La nueva versión ha mejorado significativamente el rendimiento en múltiples listas públicas. Admite la función de resolución variable, se adapta a la entrada de imágenes de diferentes tamaños y reduce significativamente el consumo de tokens en escenarios de imágenes pequeñas. y admite reconocimiento 4K ultraclaro de imágenes e imágenes con relaciones de aspecto extremas, con capacidades de comprensión de video de hasta 2 horas, lo que brinda soluciones eficientes y precisas para la comprensión y el análisis de videos prolongados.

Zhipu está comprometido con la inclusión de modelos grandes. Para ayudar a los desarrolladores a innovar, ha creado especialmente una API de modelo inclusivo de la serie Flash que es gratuita y abierta a toda la sociedad. Como el primer modelo de serie gratuito totalmente modal de la industria, los desarrolladores pueden llamar a funciones de lenguaje, comprensión multimodal y generación multimodal de forma gratuita. En un futuro próximo, la serie Flash se actualizará por completo, incluido el modelo de lenguaje GLM-4-Flash, el modelo de comprensión de imágenes GLM-4V-Flash, el modelo de generación de imágenes CogView-3-Flash y el modelo de generación de video CogVideoX-Flash.

Las actualizaciones de modelos y los nuevos modelos lanzados por Zhipu Huazhang no solo demuestran su sólida fortaleza técnica en el campo de la inteligencia artificial, sino que también reflejan su determinación de promover la universalización de la tecnología de modelos grandes, brindando a los desarrolladores y usuarios una IA más conveniente y más poderosa. herramientas, vale la pena esperar la aparición de aplicaciones más innovadoras en el futuro.