NVIDIA lanzó recientemente su último modelo grande de uso general, Nemotron-4, que tiene 15 mil millones de parámetros y funciona bien en tareas de codificación y en varios idiomas. Nemotron-4 adopta la ley de escala del modelo Chinchilla y ha logrado avances en la optimización del presupuesto informático, los datos y el tamaño del modelo. Su rendimiento supera a otros modelos de la misma escala, lo que lo convierte en uno de los modelos de lenguaje de propósito general más poderosos en la actualidad. El objetivo es poder ejecutarse en una única GPU A100 o H100, estableciendo un nuevo punto de referencia para la eficiencia de los modelos grandes. Esto marca un progreso significativo en la búsqueda de modelos grandes de alto rendimiento.
NVIDIA ha lanzado Nemotron-4, un modelo grande de uso general con 15 mil millones de parámetros que funciona bien en múltiples idiomas y tareas de codificación. El modelo adopta la ley de escala del modelo Chinchilla para optimizar el presupuesto de cálculo, los datos y el tamaño del modelo, superando los modelos de la misma escala de parámetros y convirtiéndose en el modelo de lenguaje general más poderoso. Nemotron-4 pretende ejecutarse en una única GPU A100 o H100, estableciendo un nuevo estándar en el campo de los modelos grandes.
El lanzamiento de Nemotron-4 no solo mejora el rendimiento de los modelos grandes, sino que, lo que es más importante, su objetivo de ejecutarse en una sola GPU reduce el umbral para el uso de modelos grandes, brinda comodidad a más desarrolladores e investigadores y presagia la aplicación de modelos grandes. . mayor popularización. La medida de Nvidia es de gran importancia para promover el desarrollo de la tecnología de inteligencia artificial.