Modelo de lenguaje abierto de código abierto de Tencent Hunyuan -Large admite hasta 256k secuencias de texto - Artículos de IA

Autor：Eve Cole Fecha de actualización：2025-02-12 19:32:01

Tencent anunció hoy el código abierto de su modelo de lenguaje grande llamado Hunyuan-Large, con una escala de parámetros de 398B y un volumen de parámetros de activación de 52B. El modelo funciona bien en múltiples puntos de referencia autorizados, superando modelos de código abierto similares como Llama 3.1 y MixTral. Sus innovaciones tecnológicas incluyen la aplicación de datos sintéticos de alta calidad, lo que resuelve efectivamente el problema de los datos naturales insuficientes y admite secuencias de texto de hasta 256k, mejorando significativamente las capacidades de procesamiento de texto largos. Además, Tencent también ha abierto el conjunto de datos de evaluación llamado "Penguin Scroll", con el objetivo de compensar la falta de conjuntos de evaluación de texto largo de alta calidad en la industria y promover el desarrollo de una gran tecnología de modelos.

Tencent lanzó hoy el modelo de lenguaje grande de código abierto Hunyuan-Large, con un volumen de parámetro total de 398B y un volumen de parámetros de activación de 52B. Los resultados de la evaluación pública muestran que Tencent Hunyuan Large lidera en CMMLU, MMLU, CEVA1, Matemáticas y otros conjuntos de evaluación integral multidisciplinaria, así como nueve dimensiones, como tareas de PNL chinas e inglesas, código y matemáticas, superando a los mayores de código abierto de primera clase como como Llama3.1 y mixtral.

Se entiende que este modelo puede lograr datos sintéticos de alta calidad en la innovación tecnológica y tratar de manera efectiva las deficiencias de los datos naturales mediante el uso de datos sintéticos. En términos de capacidades de procesamiento de contexto, el modelo previamente capacitado admite secuencias de texto de hasta 256k, mejorando significativamente la capacidad de manejar tareas de contexto largas.

Al mismo tiempo, Tencent Hunyuan anunció que para llenar las deficiencias de los conjuntos de revisiones de artículos largos reales en la industria, Tencent Hunyuan pronto se abre de código abierto Penguin Scroll Review para ayudar a la industria aplicada a la investigación. Los rollos de pingüinos autodesarrollados se basan en una variedad de textos largos naturales, como las finanzas públicas, la ley y los documentos académicos.

El lanzamiento del modelo de lenguaje grande Tencent Hunyuan y el código abierto del conjunto de evaluación de desplazamiento de pingüinos proporcionarán a la industria modelos de idiomas y herramientas de evaluación más potentes para promover el desarrollo del procesamiento del lenguaje natural y la inteligencia artificial.

Dirección oficial del sitio web: https://llm.hunyuan.tencent.com

El código abierto de Hunyuan-Large y el lanzamiento simultáneo del conjunto de revisión de desplazamiento de pingüinos Marcan otro gran avance para Tencent en el campo de los modelos de idiomas grandes, brindando un fuerte apoyo para la investigación académica y las aplicaciones industriales, y vale la pena esperar su futuro Desarrollo de inteligencia artificial.