Grok-1 de código abierto de Musk: 314 mil millones de parámetros es el más grande hasta ahora, la estructura de peso está completamente abierta, descarga magnética

Autor：Eve Cole Fecha de actualización：2025-01-04 12:16:01

La compañía xAI ha abierto su modelo experto híbrido Grok-1 de 314 mil millones de parámetros, que ha atraído una amplia atención en el campo de la inteligencia artificial. Los pesos del modelo y la arquitectura de red son completamente abiertos y se entrenan desde cero en función de una gran cantidad de datos de texto sin ajustes específicos de la aplicación. El peso de activación es del 25%. La biblioteca JAX y el lenguaje Rust se utilizan para capacitación personalizada y cumplen con la licencia Apache2.0, que es conveniente para los desarrolladores y el desarrollo secundario. El código abierto del modelo proporciona a los investigadores valiosos recursos de aprendizaje e investigación y también promueve un mayor desarrollo en el campo de la inteligencia artificial. Aunque algunos investigadores creen que es necesario mejorar su apertura, el lanzamiento de Grok-1 es sin duda un gran avance en el campo de la inteligencia artificial.

La compañía xAI de Musk anunció que abrirá el código abierto del modelo experto híbrido de 314 mil millones de parámetros “Grok-1” con pesos y arquitectura de red completamente abiertos. El modelo se entrena desde cero sin ajustes específicos de la aplicación. Se entrena en función de una gran cantidad de datos de texto. El peso de activación del modelo MoE es del 25%. Utiliza la biblioteca JAX y el lenguaje Rust para personalizar la pila de capacitación y cumple con la licencia Apache2.0, y su popularidad continúa aumentando. El repositorio de modelos proporciona código de muestra JAX, que requiere una gran memoria de GPU, y proporciona un enlace magnético para descargar el archivo de peso. Los investigadores evaluaron Grok-1 como menos abierto y más predictivo que LLaMA-2, proporcionaron detalles de la arquitectura del modelo y pidieron más detalles públicos.

El código abierto de Grok-1, aunque existe cierta controversia en términos de apertura, su potente rendimiento y licencia abierta lo convierten en un modelo digno de atención y se espera que promueva el desarrollo del campo de los grandes modelos de lenguaje. En el futuro, esperamos que surjan más proyectos similares de código abierto para promover conjuntamente el avance de la tecnología de inteligencia artificial. La adquisición y utilización del modelo requiere un cierto umbral técnico, pero esto no impide su contribución a la investigación en inteligencia artificial.