El editor de Downcodes se enteró de que Tencent lanzó hoy el modelo de lenguaje grande MOE de código abierto Hunyuan-large, con un tamaño de parámetro de 398B y un tamaño de parámetro de activación de 52B. Este modelo ha tenido un buen desempeño en múltiples pruebas de referencia autorizadas, superando a Llama3.1, Mixtral y otros códigos abiertos de primera clase en nueve dimensiones principales, incluidos CMMLU, MMLU, CEva1, MATH y otros conjuntos de evaluación integral multidisciplinaria, así como chino. y tareas, código y matemáticas de PNL en inglés. Modelo grande, que muestra un rendimiento potente y un amplio potencial de aplicación. La innovación tecnológica de Hunyuan-large radica en la aplicación de datos sintéticos de alta calidad, que resuelve eficazmente el problema de la insuficiencia de datos naturales y admite el procesamiento de secuencias de texto de hasta 256 K, mejorando en gran medida las capacidades de procesamiento de tareas de contexto largas.
Se entiende que este modelo puede lograr datos sintéticos de alta calidad en términos de innovación tecnológica. Al utilizar datos sintéticos para mejorar la capacitación, puede hacer frente de manera efectiva a las deficiencias de los datos naturales. En términos de capacidades de procesamiento de contexto, el modelo previamente entrenado admite secuencias de texto de hasta 256 KB, lo que mejora significativamente la capacidad de manejar tareas de contexto largas.
Al mismo tiempo, Tencent Hunyuan anunció que para cubrir la escasez de conjuntos de revisión de textos largos reales en la industria, Tencent Hunyuan abrirá el conjunto de revisión Penguin Scroll para ayudar en la investigación de aplicaciones de la industria. PenguinScrolls de desarrollo propio se basa en una variedad de textos largos naturales, como finanzas públicas, derecho y artículos académicos, con un rango de longitud de 1K-128K, que cubren diversas tareas de comprensión lectora en profundidad y razonamiento de textos largos.
El lanzamiento del modelo de lenguaje Tencent Hunyuan Large y el código abierto del conjunto de evaluación Penguin Scroll proporcionarán a la industria modelos de lenguaje y herramientas de evaluación más potentes y promoverán el desarrollo del procesamiento del lenguaje natural y la inteligencia artificial.
Dirección del sitio web oficial: https://llm.hunyuan.tencent.com
El código abierto del gran modelo Hunyuan de Tencent no solo proporciona a los desarrolladores herramientas potentes, sino que también contribuye al progreso del campo de la inteligencia artificial. El código abierto del conjunto de revisión de Penguin Scroll promoverá aún más la mejora y el desarrollo de la tecnología de procesamiento de textos largos. ¡Esperamos obtener resultados más innovadores en el futuro!