La société xAI a rendu open source son modèle expert hybride Grok-1, doté de 314 milliards de paramètres, qui a suscité une large attention dans le domaine de l'intelligence artificielle. Les poids et l'architecture réseau du modèle sont complètement ouverts et il est formé à partir de zéro sur la base d'une grande quantité de données textuelles sans ajustement spécifique à l'application. Le poids d'activation est de 25 %. La bibliothèque JAX et le langage Rust sont utilisés pour une formation personnalisée et sont conformes à la licence Apache2.0, ce qui est pratique pour les développeurs et le développement secondaire. L'open source du modèle offre aux chercheurs de précieuses ressources d'apprentissage et de recherche, et favorise également le développement ultérieur dans le domaine de l'intelligence artificielle. Même si certains chercheurs estiment que son ouverture doit être améliorée, la sortie de Grok-1 constitue sans aucun doute une avancée majeure dans le domaine de l'intelligence artificielle.
La société xAI de Musk a annoncé qu’elle ouvrirait le modèle expert hybride « Grok-1 » de 314 milliards de paramètres avec des pondérations et une architecture de réseau entièrement ouvertes. Le modèle est formé à partir de zéro sans ajustement spécifique à l'application. Il est formé sur la base d'une grande quantité de données textuelles. Le poids d'activation du modèle MoE est de 25 %. Il utilise la bibliothèque JAX et le langage Rust pour personnaliser la pile de formation et est conforme à la licence Apache2.0, et sa popularité continue d'augmenter. Le référentiel de modèles fournit un exemple de code JAX, qui nécessite une grande mémoire GPU, et fournit un lien magnétique pour télécharger le fichier de poids. Les chercheurs ont évalué Grok-1 comme moins ouvert et plus prédictif que LLaMA-2, ont fourni des détails sur l'architecture du modèle et ont demandé plus de détails publics.
L'open source de Grok-1, bien qu'il existe une certaine controverse en termes d'ouverture, ses performances puissantes et sa licence ouverte en font un modèle digne d'attention et devrait promouvoir le développement du domaine des grands modèles de langage. À l’avenir, nous attendons avec impatience l’émergence d’autres projets open source similaires pour promouvoir conjointement l’avancement de la technologie de l’intelligence artificielle. L'acquisition et l'utilisation du modèle nécessitent un certain seuil technique, mais cela n'entrave pas sa contribution à la recherche sur l'intelligence artificielle.