El último lanzamiento de Meta de la serie Llama 3.1 de modelos de código abierto ha logrado avances significativos en rendimiento, y su versión de parámetro 405B incluso supera algunos modelos de código cerrado. Entre ellos, la versión Llama3.1-8B-Instruct admite múltiples idiomas, con una longitud de contexto de hasta 131072 tokens, y está entrenada con datos sintéticos masivos para mejorar sus capacidades de razonamiento en áreas como código y matemáticas. Basado en este modelo, el equipo de OpenBuddy lanzó el modelo OpenBuddy-Llama3.1-8B-v22.1-131K que admite preguntas y respuestas en chino y traducción entre idiomas, lo que demuestra el potencial de los modelos de código abierto en aplicaciones multilingües.
Meta lanzó recientemente una nueva generación de la serie de modelos de código abierto Llama3.1, que incluye una versión de parámetro 405B cuyo rendimiento se acerca o incluso supera a los modelos de código cerrado como GPT-4 en algunas pruebas comparativas. Llama3.1-8B-Instruct es una versión de parámetros 8B de la serie, admite inglés, alemán, francés, italiano, portugués, español, hindi y tailandés, longitud de contexto de hasta 131072 tokens, fecha límite de conocimiento actualizada a diciembre de 2023 del año.
Para mejorar las capacidades de Llama3.1-8B-Instruct, Meta utilizó más de 25 millones de datos sintéticos en el entrenamiento, que fueron generados por el modelo 405B más grande. Esto permite que Llama3.1-8B-Instruct muestre capacidades cognitivas y de razonamiento similares a las de GPT3.5Turbo en codificación, matemáticas y otras pruebas.
OpenBuddy utiliza el modelo Llama3.1-8B-Instruct y se entrena con una pequeña cantidad de datos chinos para lanzar OpenBuddy-Llama3.1-8B-v22.1-131k, una nueva generación con preguntas y respuestas en chino y capacidades de traducción entre idiomas. Modelo multilenguaje de código abierto. Aunque Llama3.1 en sí no tiene capacidades chinas, después del entrenamiento, el modelo es capaz de generar respuestas que generalmente solo los modelos más grandes pueden generar en algunas preguntas que son propensas a confusión conceptual, lo que muestra un potencial cognitivo más fuerte.
Sin embargo, debido a las limitaciones del tiempo y el conjunto de datos de entrenamiento, OpenBuddy-Llama3.1-8B-v22.1 todavía tiene limitaciones en el conocimiento chino, especialmente el conocimiento cultural tradicional. A pesar de esto, el modelo muestra un rendimiento relativamente estable en tareas como la comprensión de textos largos, que se beneficia de sus capacidades originales de texto largo.
En el futuro, OpenBuddy planea llevar a cabo un entrenamiento a mayor escala de los modelos 8B y 70B para mejorar la reserva de conocimiento chino, la capacidad de texto largo y la capacidad cognitiva del modelo, y explorar la posibilidad de ajustar el modelo 405B.
Dirección del proyecto: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k
El lanzamiento del modelo OpenBuddy-Llama3.1-8B-v22.1-131k marca una nueva etapa en el desarrollo de modelos multilenguaje de código abierto. Aunque todavía hay margen de mejora en el conocimiento del chino, vale la pena esperar su potencial. En el futuro, a medida que se amplíe la escala de la formación modelo, se espera que su rendimiento mejore aún más. Esperamos más sorpresas del equipo OpenBuddy en el futuro.