Nvidia abrió recientemente dos nuevos modelos: Nemotron-4-Minitron-4B y Nemotron-4-Minitron-8B, lo que hizo avances significativos en la eficiencia de entrenamiento. A través de la poda estructurada y la tecnología de destilación de conocimiento, los datos requeridos para la capacitación de estos dos modelos se han reducido 40 veces, y el costo de la potencia informática se ha reducido en 1,8 veces. Esto no solo representa un salto en la tecnología de IA, sino que también aporta nuevas posibilidades al campo de IA, y ha contribuido con recursos valiosos a la comunidad de IA.
El entrenamiento tradicional de modelos de IA requiere muchos datos y composición. Sin embargo, Nvidia ha reducido significativamente esta demanda mediante el uso de la poda estructurada y la destilación de conocimiento. Específicamente, en comparación con el entrenamiento desde cero, los datos de token de entrenamiento requeridos para el nuevo modelo se han reducido 40 veces, y el costo de la potencia informática ha ahorrado 1.8 veces. Detrás de este logro está la optimización en profundidad de NVIDIA del modelo LLAMA-3.18B existente.
La poda estructural es una tecnología de compresión de red neuronal que simplifica la estructura del modelo al eliminar pesos sin importancia. A diferencia de las ramas aleatorias, las ramas estructuradas conservan la estructura de la matriz de peso.
La destilación del conocimiento es una forma de mejorar el rendimiento al imitar el modelo de maestro de los modelos de estudiantes. En la práctica de Nvidia, a través de la destilación de conocimiento basada en logit, el modelo de estudiante puede aprender la comprensión profunda del modelo de maestro, e incluso si reduce en gran medida los datos de capacitación, puede mantener un excelente rendimiento.
Los modelos Minitron-4B y Minitron-8B entrenados por ramas estructuradas y la destilación de conocimiento han aumentado en un 16%en MMLU, y el rendimiento puede ser comparable a modelos bien conocidos como Mistral7b, Gemma7B y LLAMA-38B. Este logro prueba la efectividad del método NVIDIA y también proporciona nuevas posibilidades para la capacitación y el despliegue de grandes modelos de IA.
Esta medida de código abierto de NVIDIA no solo muestra su posición de liderazgo en la tecnología de IA, sino que también aporta recursos valiosos a la comunidad de IA. Con el progreso continuo de la tecnología de IA, esperamos ver métodos más innovadores para promover la IA para desarrollar en una dirección más eficiente y más inteligente.
Dirección del modelo:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
Los dos principales modelos de código abierto NVIDIA proporcionan nuevas ideas para la mejora de la eficiencia del campo AI, y también indican la reducción adicional de los costos de capacitación de modelos de IA futuros y una mayor expansión del alcance de la aplicación. Esperamos aplicaciones más innovadoras basadas en esto.