Modelos de la serie GLM-4-9B de código abierto de Zhipu: las capacidades superan ampliamente al LLaMA 3 8B

Autor：Eve Cole Fecha de actualización：2025-01-03 20:32:01

Zhipu AI ha lanzado los modelos de la serie GLM-4-9B, iniciando una nueva ola en el campo de la inteligencia artificial. Esta serie incluye modelos base, modelos de chat con diferentes longitudes de contexto y modelos visuales. Su rendimiento supera ampliamente a LLaMA38B y muestra un rendimiento excelente en múltiples evaluaciones, como semántica, matemáticas, razonamiento, código y conocimiento. . Lo que es aún más notable es que los modelos de la serie GLM-4-9B han sido de código abierto en Github, lo que proporciona recursos valiosos a desarrolladores e investigadores de todo el mundo y promueve en gran medida el desarrollo y la aplicación de la tecnología de inteligencia artificial.

Zhipu anunció el lanzamiento de la serie de modelos GLM-4-9B, incluidos modelos base, modelos de chat con diferentes longitudes de contexto y modelos visuales, con capacidades que superan al LLaMA38B en todos los aspectos. Se informa que los modelos de la serie GLM-4-9B han sido de código abierto en Github, lo que ha atraído la atención de una gran cantidad de desarrolladores e investigadores. El lanzamiento de esta serie de modelos se considera otro avance importante para la empresa Zhipu en el campo de la inteligencia artificial.

GLM-4-9B es la versión de código abierto de la serie GLM-4 del modelo de preentrenamiento de última generación lanzada por Zhipu AI. En la evaluación de varios conjuntos de datos, como semántica, matemáticas, razonamiento, código y conocimiento, GLM-4-9B y su versión alineada con las preferencias humanas GLM-4-9B-Chat mostraron un rendimiento excelente más allá de Llama-3-8B.

Además de poder realizar múltiples rondas de conversaciones, GLM-4-9B-Chat también tiene funciones avanzadas como navegación web, ejecución de código, llamada de herramientas personalizadas (llamada de función) y razonamiento de texto largo (que admite contexto de hasta 128 KB). .

El modelo de esta generación agrega soporte multilingüe, admitiendo 26 idiomas, incluidos japonés, coreano y alemán. También lanzamos el modelo GLM-4-9B-Chat-1M que admite una longitud de contexto de 1 millón (aproximadamente 2 millones de caracteres chinos) y el modelo multimodal GLM-4V-9B basado en GLM-4-9B.

GLM-4V-9B es capaz de realizar diálogos bilingües de múltiples turnos en chino e inglés a una alta resolución de 1120*1120 en la evaluación multimodal de habilidades integrales en chino e inglés, razonamiento perceptivo, reconocimiento de texto, comprensión de diagramas y otros aspectos. , GLM-4V-9B ocupó el primer lugar. Muestra un rendimiento excelente más allá de GPT-4-turbo-2024-04-09, Gemini1.0Pro, Qwen-VL-Max y Claude3Opus.

Los internautas han expresado la esperanza de que los modelos de la serie GLM-4-9B puedan aportar un nuevo impulso al desarrollo de la tecnología de inteligencia artificial y esperan ver la llegada de productos más inteligentes. Al mismo tiempo, también expresaron su agradecimiento por la solidez técnica y las capacidades de innovación de Zhipu.

Dirección de código abierto: https://github.com/THUDM/GLM-4

Dirección de experiencia modelo: https://modelscope.cn/studios/dash-infer/GLM-4-Chat-DashInfer-Demo/summary

El código abierto de los modelos de la serie GLM-4-9B promoverá aún más el intercambio abierto y el desarrollo de tecnología de inteligencia artificial. Esperamos ver surgir más aplicaciones innovadoras basadas en este modelo. Sin duda, los continuos avances de Zhipu AI han inyectado nueva vitalidad al campo de la inteligencia artificial.