Yuanxiang lanza el modelo grande de código abierto XVERSE-MoE-A36B de MoE con parámetros de activación que alcanzan los 36B

Autor：Eve Cole Fecha de actualización：2024-12-11 08:16:01

Shenzhen Yuanxiang Information Technology Co., Ltd. lanza el modelo grande de código abierto con combinación de expertos (MoE) más grande de China: XVERSE-MoE-A36B. Sus 255 B de parámetros totales y 36 B de parámetros de activación hacen que su rendimiento sea comparable o incluso superior a muchos modelos de parámetros más grandes. . Este modelo logró mejoras significativas en el tiempo de entrenamiento y el rendimiento de inferencia, redujo significativamente el costo por token y brindó un fuerte soporte para la implementación de aplicaciones de IA de bajo costo. Este avance marca el progreso significativo de China en el campo de los modelos lingüísticos a gran escala, impulsando la tecnología nacional de código abierto a una posición de liderazgo internacional. El modelo XVERSE-MoE-A36B es totalmente de código abierto y gratuito para uso comercial, lo que proporciona recursos valiosos para pequeñas y medianas empresas, investigadores y desarrolladores.

El modelo XVERSE-MoE-A36B tiene 255B de parámetros totales y 36B de parámetros de activación. Su rendimiento es comparable al de modelos grandes con más de 100B de parámetros, logrando un salto de rendimiento entre niveles. El modelo reduce el tiempo de entrenamiento en un 30 %, mejora el rendimiento de inferencia en un 100 %, reduce significativamente el costo por token y hace posible la implementación de aplicaciones de IA de bajo costo. Los modelos de la serie de cubos familiares de alto rendimiento de Yuanxiang XVERSE han sido completamente de código abierto y son incondicionalmente gratuitos para uso comercial, lo que proporciona a muchas pequeñas y medianas empresas, investigadores y desarrolladores más opciones. La arquitectura MoE rompe las limitaciones de las leyes de expansión tradicionales al combinar modelos expertos en múltiples subdivisiones. Al tiempo que expande la escala del modelo, mantiene el máximo rendimiento del modelo y reduce los costos computacionales de entrenamiento e inferencia. En múltiples evaluaciones autorizadas, el efecto de Yuanxiang MoE ha superado significativamente el de muchos modelos similares, incluido el modelo nacional de 100 mil millones de MoE Skywork-MoE, el tradicional señor supremo del MoE Mixtral-8x22B y el modelo de código abierto de 314 mil millones de parámetros MoE Grok-1. -A86B, etc.

Los modelos de la serie de cubos familiares de alto rendimiento de Yuanxiang XVERSE han sido completamente de código abierto y son incondicionalmente gratuitos para uso comercial, lo que proporciona a muchas pequeñas y medianas empresas, investigadores y desarrolladores más opciones. La arquitectura MoE rompe las limitaciones de las leyes de expansión tradicionales al combinar modelos expertos en múltiples subdivisiones. Al tiempo que expande la escala del modelo, mantiene el máximo rendimiento del modelo y reduce los costos computacionales de entrenamiento e inferencia.

En múltiples evaluaciones autorizadas, el efecto de Yuanxiang MoE ha superado significativamente el de muchos modelos similares, incluido el modelo nacional de 100 mil millones de MoE Skywork-MoE, el tradicional señor supremo del MoE Mixtral-8x22B y el modelo de código abierto de 314 mil millones de parámetros MoE Grok-1. -A86B, etc.

Descarga gratuita de modelos grandes.

Cara de abrazo: https://huggingface.co/xverse/XVERSE-MoE-A36B
Alcance mágico: https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github: https://github.com/xverse-ai/XVERSE-MoE-A36B
Consultas: [email protected]
Sitio web oficial: chat.xverse.cn

El código abierto y el uso comercial gratuito de XVERSE-MoE-A36B reducen el umbral para las aplicaciones de IA y promoverán en gran medida el desarrollo y la aplicación de la tecnología de inteligencia artificial de China. Su excelente rendimiento y su cómodo acceso sin duda proporcionan potentes herramientas y recursos para desarrolladores e investigadores de IA nacionales y extranjeros. Esperamos ver más aplicaciones innovadoras basadas en este modelo en el futuro.