O modelo grande de uso geral mais poderoso da NVIDIA, Nemotron-4, está aqui! 15B supera 62B, o alvo único A100/H100 pode ser executado

Autor：Eve Cole Data da Última Atualização：2025-01-05 13:16:01

A NVIDIA lançou seu novo modelo de linguagem de grande escala Nemotron-4, um modelo de 15 bilhões de parâmetros que tem bom desempenho em vários benchmarks, superando concorrentes do mesmo tamanho. O modelo é baseado na arquitetura Transformer do decodificador puro padrão e é treinado usando um conjunto de dados multilíngue e de codificação contendo 8 trilhões de tokens. Seu poderoso desempenho abrange raciocínio de bom senso, matemática e código, classificação e geração multilíngue e tradução automática.

A equipe da NVIDIA lançou um novo modelo de 15 bilhões de parâmetros, Nemotron-4, que funciona bem em tarefas de inglês, multilíngue e de codificação, e supera modelos do mesmo tamanho de parâmetro em vários benchmarks de avaliação. Usando uma arquitetura Transformer de decodificador puro padrão, o conjunto de dados de treinamento contém 8 trilhões de tokens, cobrindo vários idiomas e textos codificados. Nemotron-415B tem excelente desempenho em diversas áreas de tarefas, incluindo raciocínio de bom senso, matemática e codificação, classificação e geração multilíngue, tradução automática, etc. O autor acredita que o Nemotron-415B deverá se tornar o melhor modelo grande de uso geral que pode ser executado em uma única GPU NVIDIA A100 ou H100.

O surgimento do Nemotron-4 demonstra os avanços tecnológicos contínuos da NVIDIA no campo de modelos de linguagem em grande escala. Suas vantagens na operação de GPU única também fazem com que ele tenha amplas perspectivas de aplicação. da inteligência artificial no futuro.