NVIDIA hat sein neues groß angelegtes Sprachmodell Nemotron-4 veröffentlicht, ein Modell mit 15 Milliarden Parametern, das in mehreren Benchmarks gut abschneidet und Konkurrenten derselben Größe übertrifft. Das Modell basiert auf der standardmäßigen reinen Decoder-Transformer-Architektur und wird mithilfe eines mehrsprachigen und kodierten Datensatzes trainiert, der 8 Billionen Token enthält. Seine leistungsstarke Leistung umfasst gesundes Denken, Mathematik und Code, mehrsprachige Klassifizierung und Generierung sowie maschinelle Übersetzung.
Das NVIDIA-Team hat ein neues Modell mit 15 Milliarden Parametern, Nemotron-4, auf den Markt gebracht, das bei Englisch-, Mehrsprachigkeits- und Codierungsaufgaben gut funktioniert und Modelle derselben Parametergröße bei mehreren Bewertungsbenchmarks übertrifft. Unter Verwendung einer standardmäßigen reinen Decoder-Transformer-Architektur enthält der Trainingsdatensatz 8 Billionen Token, die mehrere Sprachen und codierte Texte abdecken. Nemotron-415B bietet hervorragende Leistungen in verschiedenen Aufgabenbereichen, darunter gesundes Denken, Mathematik und Codierung, mehrsprachige Klassifizierung und Generierung, maschinelle Übersetzung usw. Der Autor geht davon aus, dass der Nemotron-415B voraussichtlich das beste Allzweck-Großmodell wird, das auf einer einzelnen NVIDIA A100- oder H100-GPU ausgeführt werden kann.
Das Aufkommen von Nemotron-4 zeigt die anhaltenden technologischen Durchbrüche von NVIDIA im Bereich der großen Sprachmodelle. Aufgrund seiner Vorteile im Einzel-GPU-Betrieb bietet es auch breite Anwendungsaussichten. Es lohnt sich, auf seine weitere Entwicklung und Anwendung in diesem Bereich zu blicken der künstlichen Intelligenz in der Zukunft.