A finales de año, Beijing Zhipu Huazhang Technology Co., Ltd. lanzó la primera versión de GLM-Zero, el primer modelo de inferencia entrenado en base a tecnología de aprendizaje por refuerzo extendido: GLM-Zero-Preview. Este modelo ha demostrado excelentes capacidades en lógica matemática, escritura de códigos y razonamiento de problemas complejos, y ha logrado resultados comparables a modelos OpenAI similares en múltiples evaluaciones autorizadas. GLM-Zero-Preview no solo mejora las capacidades de tareas expertas, sino que también mantiene un rendimiento excelente en tareas generales, estableciendo un nuevo punto de referencia para la mejora de las capacidades de razonamiento de la inteligencia artificial.
A finales de año, para Beijing Zhipu Huazhang Technology Co., Ltd., la compañía lanzó su primer modelo de inferencia entrenado basado en tecnología de aprendizaje por refuerzo extendido: la primera versión de GLM-Zero, GLM-Zero-Preview. Este modelo se centra en mejorar las capacidades de razonamiento de la inteligencia artificial, especialmente en lógica matemática, escritura de códigos y procesamiento de problemas complejos que requieren un razonamiento profundo. En comparación con el modelo base, GLM-Zero-Preview ha mejorado significativamente sus capacidades de tareas expertas al tiempo que mantiene las capacidades de tareas generales. Su rendimiento en las evaluaciones AIME2024, MATH500 y LiveCodeBench es equivalente a OpenAI o1-preview.
Los usuarios ahora pueden experimentar GLM-Zero-Preview de forma gratuita en el agente "Zero Inference Model" de la plataforma Zhipu Qingyan. La plataforma admite la carga de texto e imágenes, y el modelo generará el proceso de razonamiento completo. Al mismo tiempo, los desarrolladores también pueden llamar a este modelo a través de la API de la plataforma abierta Zhipu.
Aunque todavía existe una cierta brecha entre GLM-Zero-Preview y el modelo o3 de OpenAI, Zhipu Huazhang Technology Co., Ltd. planea continuar optimizando la tecnología de aprendizaje por refuerzo iterativo y pronto lanzará la versión oficial de GLM-Zero para expandir la capacidad. del pensamiento profundo desde la lógica matemática hasta áreas tecnológicas más generales.
En términos de rendimiento del modelo, GLM-Zero-Preview demuestra la importancia del aprendizaje por refuerzo para mejorar las capacidades de razonamiento profundo del modelo. A medida que aumenta la cantidad de entrenamiento, el rendimiento del modelo en aspectos como el razonamiento profundo ha mejorado constantemente. También se ha verificado la ley de escala del modelo en la etapa de inferencia, es decir, a medida que aumenta el número de tokens en los que el modelo puede pensar y se requieren más cálculos, la calidad de los resultados proporcionados por el modelo también mejora constantemente. GLM-Zero-Preview puede realizar la toma de decisiones autónoma, la descomposición de problemas y probar múltiples formas de resolver problemas durante el proceso de razonamiento, que es similar al proceso de pensamiento y toma de decisiones humanos.
En casos de prueba reales, GLM-Zero-Preview demostró la capacidad de identificar lagunas lógicas y simular múltiples suposiciones en términos de razonamiento lógico. En términos de matemáticas, el modelo tiene fuertes capacidades inductivas y deductivas, puede manejar rápidamente operaciones matemáticas complejas y ha alcanzado el nivel de un estudiante de posgrado destacado en la prueba de Matemáticas I del examen de ingreso de posgrado de 2025. En términos de programación, GLM-Zero-Preview domina el uso de múltiples lenguajes de programación y ayuda a los desarrolladores a escribir código rápidamente.
Palabras claras del espectro de sabiduría:
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
Plataforma abierta Zhipu:
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview
El lanzamiento de GLM-Zero-Preview marca que Zhipu Huazhang ha logrado un progreso significativo en el campo del razonamiento de inteligencia artificial. Su estrategia abierta y gratuita también facilita la experiencia y la retroalimentación de los desarrolladores y usuarios, proporcionando datos valiosos para la optimización iterativa de futuros modelos. Esperamos con ansias el lanzamiento de la versión oficial de GLM-Zero para promover aún más el avance de la tecnología de inteligencia artificial.