NVIDIA a publié son nouveau modèle de langage à grande échelle Nemotron-4, un modèle de 15 milliards de paramètres qui fonctionne bien dans plusieurs benchmarks, surpassant ses concurrents de même taille. Le modèle est basé sur l'architecture standard du décodeur pur Transformer et est formé à l'aide d'un ensemble de données multilingues et d'encodage contenant 8 000 milliards de jetons. Ses performances puissantes couvrent le raisonnement de bon sens, les mathématiques et le code, la classification et la génération multilingues et la traduction automatique.
L'équipe NVIDIA a lancé un nouveau modèle de 15 milliards de paramètres, Nemotron-4, qui fonctionne bien dans les tâches en anglais, multilingues et de codage, et bat les modèles de même taille de paramètres sur plusieurs tests d'évaluation. Utilisant une architecture Transformer de décodeur pur standard, l'ensemble de données de formation contient 8 000 milliards de jetons, couvrant plusieurs langues et textes codés. Le Nemotron-415B présente d'excellentes performances dans divers domaines de tâches, notamment le raisonnement de bon sens, les mathématiques et le codage, la classification et la génération multilingues, la traduction automatique, etc. L'auteur estime que le Nemotron-415B devrait devenir le meilleur grand modèle à usage général pouvant fonctionner sur un seul GPU NVIDIA A100 ou H100.
L'émergence de Nemotron-4 démontre les avancées technologiques continues de NVIDIA dans le domaine des modèles de langage à grande échelle. Ses avantages dans le fonctionnement d'un seul GPU lui confèrent également de larges perspectives d'application. Il vaut la peine d'attendre avec impatience son développement et ses applications dans ce domaine. de l'intelligence artificielle à l'avenir.