A NVIDIA lançou recentemente seu mais recente modelo grande de uso geral Nemotron-4, que possui 15 bilhões de parâmetros e funciona bem em tarefas multilíngues e de codificação. Nemotron-4 adota a lei de escala do modelo Chinchilla e fez avanços na otimização do orçamento computacional, dos dados e do tamanho do modelo. Seu desempenho excede outros modelos da mesma escala, tornando-o um dos modelos de linguagem de uso geral mais poderosos atualmente. O objetivo é poder rodar em uma única GPU A100 ou H100, estabelecendo um novo padrão de eficiência para modelos grandes. Isto marca um progresso significativo na busca por modelos grandes de alto desempenho.
A NVIDIA lançou o Nemotron-4, um grande modelo de uso geral com 15 bilhões de parâmetros que funciona bem em vários idiomas e tarefas de codificação. O modelo adota a lei de escala do modelo Chinchilla para otimizar o orçamento de cálculo, os dados e o tamanho do modelo, superando modelos da mesma escala de parâmetros e tornando-se o modelo de linguagem geral mais poderoso. O Nemotron-4 pretende rodar em uma única GPU A100 ou H100, estabelecendo um novo padrão na área de modelos grandes.
O lançamento do Nemotron-4 não apenas melhora o desempenho de modelos grandes, mas, mais importante ainda, seu objetivo de rodar em uma única GPU reduz o limite para o uso de modelos grandes, oferece conveniência para mais desenvolvedores e pesquisadores e anuncia a aplicação de modelos grandes. . mais popularização. A ação da Nvidia é de grande importância para promover o desenvolvimento da tecnologia de inteligência artificial.