Meta lanza el modelo de lenguaje grande de código abierto Llama 3.1 405B, con rendimiento comparable al GPT-4

Autor：Eve Cole Fecha de actualización：2024-12-05 20:00:02

¡El gran lanzamiento de Meta Company! Su último modelo de lenguaje grande, Llama 3.1 405B, es de código abierto, con un volumen de parámetros de hasta 128 mil millones y su rendimiento es comparable al de GPT-4 en múltiples tareas. Después de un año de cuidadosa preparación, desde la planificación del proyecto hasta la revisión final, los modelos de la serie Llama 3 finalmente se encuentran con el público. Este código abierto no solo incluye el modelo en sí, sino también su procesamiento de datos previo al entrenamiento optimizado, control de calidad de los datos posteriores al entrenamiento y tecnología de cuantificación eficiente para reducir los requisitos informáticos y facilitar su uso por parte de los desarrolladores. El editor de Downcodes explicará en detalle las mejoras y aspectos más destacados de Llama 3.1 405B.

Anoche, Meta anunció el código abierto de su último modelo de lenguaje grande Llama3.1 405B. Esta gran noticia marca que después de un año de cuidadosa preparación, desde la planificación del proyecto hasta la revisión final, los modelos de la serie Llama3 finalmente han conocido al público.

Llama3.1405B es un modelo de uso de herramientas multilingüe con 128 mil millones de parámetros. Después del entrenamiento previo con una longitud de contexto de 8K, el modelo se entrena aún más con una longitud de contexto de 128K. Según Meta, el rendimiento de este modelo en múltiples tareas es comparable al del GPT-4 líder en la industria.

En comparación con el modelo Llama anterior, Meta se ha optimizado en muchos aspectos:

Proceso mejorado de preprocesamiento y curación de datos previos al entrenamiento.
Métodos mejorados de control de calidad y selección de datos posteriores al entrenamiento.

El entrenamiento previo del modelo 405B es un gran desafío, que involucra 15,6 billones de tokens y 3,8x10^25 operaciones de punto flotante. Para ello, Meta optimizó toda la arquitectura de entrenamiento y utilizó más de 16.000 GPU H100.

Para respaldar la inferencia de producción en masa del modelo 405B, Meta lo cuantizó de 16 bits (BF16) a 8 bits (FP8), lo que redujo significativamente los requisitos informáticos y permitió que un único nodo de servidor ejecutara el modelo.

Además, Meta utiliza el modelo 405B para mejorar la calidad posterior al entrenamiento de los modelos 70B y 8B. En la fase posterior a la capacitación, el equipo perfeccionó el modelo de chat a través de múltiples rondas de procesos de alineación, incluido el ajuste fino supervisado (SFT), el muestreo de rechazo y la optimización de preferencias directas. Vale la pena señalar que la mayoría de las muestras de SFT se generan utilizando datos sintéticos.

Llama3 también integra funciones de imagen, video y voz, utilizando un enfoque combinado para permitir que el modelo reconozca imágenes y videos y admita la interacción de voz. Sin embargo, estas funciones aún están en desarrollo y aún no se han lanzado oficialmente.

Meta también actualizó su acuerdo de licencia para permitir a los desarrolladores utilizar el resultado del modelo Llama para mejorar otros modelos.

Los investigadores de Meta dijeron: Es extremadamente emocionante trabajar a la vanguardia de la IA con los mejores talentos de la industria y publicar los resultados de la investigación de forma abierta y transparente. ¡Esperamos ver la innovación que aportan los modelos de código abierto y el potencial de futuros modelos de la serie Llama!

Sin duda, esta iniciativa de código abierto traerá nuevas oportunidades y desafíos al campo de la IA y promoverá un mayor desarrollo de la tecnología de modelos de lenguaje a gran escala.

El código abierto de Llama 3.1 405B promoverá en gran medida el avance de la tecnología de modelos de lenguajes grandes y brindará más posibilidades al campo de la IA. ¡Esperamos que los desarrolladores creen más aplicaciones sorprendentes basadas en este modelo!