NVIDIA a récemment ouvert deux nouveaux modèles: Nemotron-4-Minitron-4B et Nemotron-4-Minitron-8b, qui ont fait des percées importantes dans l'efficacité de la formation. Grâce à la technologie structurée de l'élagage et des connaissances, les données requises pour la formation de ces deux modèles ont été réduites de 40 fois, et le coût de la puissance de calcul a été réduit de 1,8 fois. Cela représente non seulement un saut dans la technologie de l'IA, mais apporte également de nouvelles possibilités au domaine de l'IA, et a apporté de précieuses ressources à la communauté de l'IA.
La formation traditionnelle du modèle d'IA nécessite beaucoup de données et de composition. Cependant, NVIDIA a considérablement réduit cette demande en utilisant l'élagage structuré et la distillation des connaissances. Plus précisément, par rapport à la formation à partir de zéro, les données de jeton d'entraînement requises pour le nouveau modèle ont été réduites de 40 fois, et le coût de la puissance de calcul a permis à 1,8 fois. Derrière cette réalisation se trouve l'optimisation approfondie de Nvidia du modèle existant LLAMA-3.18B.
L'élagage structurel est une technologie de compression de réseau neuronal qui simplifie la structure du modèle en supprimant des poids sans importance. Différentes des branches aléatoires, les branches structurées conservent la structure de la matrice de poids.
La distillation des connaissances est un moyen d'améliorer les performances en imitant le modèle enseignant des modèles d'élèves. Dans la pratique de Nvidia, grâce à la distillation des connaissances basées sur Logit, le modèle des élèves peut apprendre la compréhension approfondie du modèle des enseignants, et même si cela réduit considérablement les données de formation, il peut maintenir d'excellentes performances.
Les modèles Minitron-4B et Mintron-8b formés par des branches structurées et la distillation des connaissances ont augmenté de 16% sur MMLU, et les performances peuvent être comparables à des modèles bien connus tels que Mistral7b, Gemma7b et Llama-38b. Cette réalisation prouve l'efficacité de la méthode NVIDIA et offre également de nouvelles possibilités pour la formation et le déploiement de grands modèles d'IA.
Cette mesure open source de NVIDIA montre non seulement sa position de leadership dans la technologie de l'IA, mais apporte également de précieuses ressources à la communauté de l'IA. Avec le progrès continu de la technologie d'IA, nous sommes impatients de voir des méthodes plus innovantes pour promouvoir l'IA pour nous développer dans une direction plus efficace et plus intelligente.
Adresse du modèle:
https://huggingface.co/nvidia/nemotron-4-initron-4b-base
https://huggingface.co/nvidia/nemotron-4-initron-8b-base
Les deux principaux modèles de l'open source de NVIDIA fournissent de nouvelles idées pour l'amélioration de l'efficacité du champ d'IA, et indiquent également la réduction supplémentaire des coûts de formation des modèles d'IA futurs et l'expansion supplémentaire de la portée de l'application. Dans l'attente d'applications plus innovantes en fonction de cela.