NVIDIA hat kürzlich sein neuestes Allzweck-Großmodell Nemotron-4 veröffentlicht, das über 15 Milliarden Parameter verfügt und bei Mehrsprachen- und Codierungsaufgaben gute Leistungen erbringt. Nemotron-4 übernimmt das Skalierungsgesetz des Chinchilla-Modells und hat Durchbrüche bei der Optimierung des Rechenbudgets, der Daten und der Modellgröße erzielt. Seine Leistung übertrifft andere Modelle im gleichen Maßstab und ist damit eines der derzeit leistungsstärksten Allzweck-Sprachmodelle. Ziel ist es, auf einer einzigen A100- oder H100-GPU laufen zu können und damit einen neuen Maßstab für die Effizienz großer Modelle zu setzen. Dies stellt einen bedeutenden Fortschritt im Streben nach leistungsstarken Großmodellen dar.
NVIDIA hat Nemotron-4 veröffentlicht, ein großes Allzweckmodell mit 15 Milliarden Parametern, das in mehreren Sprachen und Codierungsaufgaben gut funktioniert. Das Modell übernimmt das Skalierungsgesetz des Chinchilla-Modells, um das Berechnungsbudget, die Daten und die Modellgröße zu optimieren, übertrifft Modelle mit derselben Parameterskala und wird zum leistungsstärksten allgemeinen Sprachmodell. Nemotron-4 soll auf einer einzelnen A100- oder H100-GPU laufen und damit einen neuen Standard im Bereich großer Modelle setzen.
Die Veröffentlichung von Nemotron-4 verbessert nicht nur die Leistung großer Modelle, sondern, was noch wichtiger ist, das Ziel, auf einer einzigen GPU zu laufen, senkt die Schwelle für die Verwendung großer Modelle, bietet Komfort für mehr Entwickler und Forscher und läutet die Anwendung großer Modelle ein . Weitere Popularisierung. Der Schritt von Nvidia ist von großer Bedeutung für die Förderung der Entwicklung der Technologie der künstlichen Intelligenz.