NVIDIA a récemment publié son dernier grand modèle polyvalent Nemotron-4, doté de 15 milliards de paramètres et performant dans les tâches multilingues et de codage. Nemotron-4 adopte la loi d'échelle du modèle Chinchilla et a réalisé des percées dans l'optimisation du budget informatique, des données et de la taille du modèle. Ses performances dépassent les autres modèles de même échelle, ce qui en fait l'un des modèles de langage à usage général les plus puissants actuellement. L'objectif est de pouvoir fonctionner sur un seul GPU A100 ou H100, établissant ainsi une nouvelle référence en matière d'efficacité des grands modèles. Cela marque un progrès significatif dans la recherche de grands modèles performants.
NVIDIA a publié Nemotron-4, un grand modèle à usage général avec 15 milliards de paramètres qui fonctionne bien dans plusieurs langues et tâches de codage. Le modèle adopte la loi d'échelle du modèle Chinchilla pour optimiser le budget de calcul, les données et la taille du modèle, dépassant les modèles de même échelle de paramètres et devenant le modèle de langage général le plus puissant. Nemotron-4 vise à fonctionner sur un seul GPU A100 ou H100, établissant ainsi une nouvelle norme dans le domaine des grands modèles.
La sortie de Nemotron-4 améliore non seulement les performances des grands modèles, mais plus important encore, son objectif de fonctionner sur un seul GPU abaisse le seuil d'utilisation des grands modèles, offre une commodité à davantage de développeurs et de chercheurs et annonce l'application de grands modèles. . une vulgarisation plus poussée. La décision de Nvidia revêt une grande importance pour promouvoir le développement de la technologie de l’intelligence artificielle.