NVIDIA eröffnete kürzlich zwei neue Modelle: Nemotron-4-Minitron-4b und Nemotron-4-Minitron-8b, was erhebliche Durchbrüche bei der Trainingseffizienz führte. Durch strukturierte Beschneidung und Wissensdestillationstechnologie wurden die für das Training dieser beiden Modelle erforderlichen Daten um 40 Mal reduziert, und die Kosten für die Rechenleistung wurden um das 1,8 -fache verringert. Dies stellt nicht nur einen Sprung in der KI -Technologie dar, sondern bringt auch neue Möglichkeiten in das KI -Feld und hat der AI -Community wertvolle Ressourcen beigetragen.
Das herkömmliche KI -Modelltraining erfordert viel Daten und Zusammensetzung. Nvidia hat diesen Nachfrage jedoch durch die Verwendung strukturierter Beschneidung und Wissensdestillation erheblich verringert. Insbesondere im Vergleich zum Training von Grund auf wurden die für das neuen Modell erforderlichen Training -Token -Daten um das 40 -fache reduziert, und die Kosten für die Rechenleistung haben das 1,8 -fache gespart. Hinter dieser Leistung steht die ausführliche Optimierung des vorhandenen Modells LLAMA-3.18B durch Nvidia.
Strukturkanal ist eine Komprimierungstechnologie für neuronale Netzwerke, die die Modellstruktur durch Entfernen von unwichtigen Gewichten vereinfacht. Anders als zufällige Zweige behalten die strukturierten Zweige die Struktur der Gewichtsmatrix.
Wissensdestillation ist eine Möglichkeit, die Leistung zu verbessern, indem das Lehrermodell von Studentenmodellen nachahmt. In der Praxis von NVIDIA kann das Schülermodell durch die destillation von Logit -Basis das tiefe Verständnis des Lehrermodells lernen und selbst wenn es die Trainingsdaten stark reduziert, kann es eine hervorragende Leistung aufrechterhalten.
Minitron-4B- und Minitron-8b-Modelle, die durch strukturierte Zweige und Wissensdestillation trainiert wurden, sind bei MMLU um 16%gestiegen, und die Leistung kann mit bekannten Modellen wie Mistral7b, Gemma7b und LLAMA-38B vergleichbar sein. Diese Leistung beweist die Wirksamkeit der NVIDIA -Methode und bietet auch neue Möglichkeiten für die Schulung und den Einsatz großer KI -Modelle.
Dieses Open -Source -Maß für Nvidia zeigt nicht nur seine Führungsposition in der KI -Technologie, sondern bringt auch wertvolle Ressourcen für die KI -Community. Mit dem kontinuierlichen Fortschritt der KI -Technologie freuen wir uns darauf, innovativere Methoden zu sehen, um die KI für eine effizientere und intelligentere Richtung zu fördern.
Modelladresse:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
Die beiden Hauptmodelle von Nvidia Open Source bieten neue Ideen für die Verbesserung der Effizienz des KI -Feldes und geben auch die weitere Reduzierung der künftigen KI -Modelltrainingskosten und die weitere Ausweitung des Anwendungsbereichs an. Ich freue mich auf innovativere Anwendungen, die darauf basieren.