NVIDIA ha lanzado su nuevo modelo de lenguaje a gran escala Nemotron-4, un modelo de 15 mil millones de parámetros que funciona bien en múltiples pruebas, superando a competidores del mismo tamaño. El modelo se basa en la arquitectura Transformer de decodificador puro estándar y se entrena utilizando un conjunto de datos de codificación y varios idiomas que contiene 8 billones de tokens. Su potente rendimiento cubre el razonamiento de sentido común, las matemáticas y el código, la clasificación y generación en varios idiomas y la traducción automática.
El equipo de NVIDIA lanzó un nuevo modelo de 15 mil millones de parámetros, Nemotron-4, que funciona bien en inglés, en varios idiomas y en tareas de codificación, y supera a los modelos del mismo tamaño de parámetros en múltiples puntos de referencia de evaluación. Utilizando una arquitectura Transformer de decodificador puro estándar, el conjunto de datos de entrenamiento contiene 8 billones de tokens, que cubren múltiples idiomas y textos codificados. Nemotron-415B tiene un rendimiento excelente en diversas áreas de tareas, incluido el razonamiento de sentido común, matemáticas y codificación, clasificación y generación en varios idiomas, traducción automática, etc. El autor cree que se espera que Nemotron-415B se convierta en el mejor modelo grande de uso general que pueda funcionar con una sola GPU NVIDIA A100 o H100.
La aparición de Nemotron-4 demuestra los continuos avances tecnológicos de NVIDIA en el campo de los modelos de lenguaje a gran escala. Sus ventajas en el funcionamiento con una sola GPU también hacen que tenga amplias perspectivas de aplicación. Vale la pena esperar su mayor desarrollo y aplicación en el campo. de la inteligencia artificial en el futuro.