Yuanxiang lança modelo grande de código aberto MoE XVERSE-MoE-A36B com parâmetros de ativação atingindo 36B

Autor：Eve Cole Data da Última Atualização：2024-12-11 08:16:01

lança o maior modelo grande de código aberto Mixture of Experts (MoE) da China - XVERSE-MoE-A36B. Seus parâmetros totais de 255B e parâmetros de ativação de 36B tornam seu desempenho comparável ou até superior a muitos parâmetros maiores Modelo. . Este modelo alcançou melhorias significativas no tempo de treinamento e no desempenho de inferência, reduziu significativamente o custo por token e forneceu forte suporte para implantação de aplicativos de IA de baixo custo. Este avanço marca o progresso significativo da China no campo dos modelos linguísticos de grande escala, empurrando a tecnologia nacional de código aberto para uma posição de liderança internacional. O modelo XVERSE-MoE-A36B é totalmente de código aberto e gratuito para uso comercial, fornecendo recursos valiosos para pequenas e médias empresas, pesquisadores e desenvolvedores.

O modelo XVERSE-MoE-A36B possui parâmetros totais de 255B e parâmetros de ativação de 36B. Seu desempenho é comparável a modelos grandes com mais de 100B de parâmetros, alcançando um salto de desempenho de nível cruzado. O modelo reduz o tempo de treinamento em 30%, melhora o desempenho de inferência em 100%, reduz significativamente o custo por token e possibilita a implantação de aplicativos de IA de baixo custo. Os modelos da série de baldes familiares de alto desempenho da Yuanxiang XVERSE são totalmente de código aberto e são incondicionalmente gratuitos para uso comercial, o que oferece mais opções a muitas pequenas e médias empresas, pesquisadores e desenvolvedores. A arquitetura do MoE rompe as limitações das leis de expansão tradicionais ao combinar modelos especialistas em múltiplas subdivisões. Ao mesmo tempo em que expande a escala do modelo, mantém o desempenho máximo do modelo e reduz os custos computacionais de treinamento e inferência. Em múltiplas avaliações oficiais, o efeito do Yuanxiang MoE superou significativamente o de muitos modelos semelhantes, incluindo o modelo doméstico de 100 bilhões de MoE Skywork-MoE, o tradicional overlord MoE Mixtral-8x22B e o modelo de código aberto MoE de 314 bilhões de parâmetros Grok-1 -A86B etc

Os modelos da série de baldes familiares de alto desempenho da Yuanxiang XVERSE são totalmente de código aberto e são incondicionalmente gratuitos para uso comercial, o que oferece mais opções a muitas pequenas e médias empresas, pesquisadores e desenvolvedores. A arquitetura do MoE rompe as limitações das leis de expansão tradicionais ao combinar modelos especialistas em múltiplas subdivisões. Ao mesmo tempo em que expande a escala do modelo, mantém o desempenho máximo do modelo e reduz os custos computacionais de treinamento e inferência.

Em múltiplas avaliações oficiais, o efeito do Yuanxiang MoE superou significativamente o de muitos modelos semelhantes, incluindo o modelo doméstico de 100 bilhões de MoE Skywork-MoE, o tradicional overlord MoE Mixtral-8x22B e o modelo de código aberto MoE de 314 bilhões de parâmetros Grok-1 -A86B etc

Download gratuito de modelos grandes

Abraçando rosto: https://huggingface.co/xverse/XVERSE-MoE-A36B
Escopo mágico: https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github: https://github.com/xverse-ai/XVERSE-MoE-A36B
Consultas: [email protected]
Site oficial: chat.xverse.cn

O uso comercial gratuito e de código aberto do XVERSE-MoE-A36B reduz o limite para aplicações de IA e promoverá enormemente o desenvolvimento e a aplicação da tecnologia de inteligência artificial da China. Seu excelente desempenho e acesso conveniente fornecem, sem dúvida, ferramentas e recursos poderosos para desenvolvedores e pesquisadores de IA nacionais e estrangeiros. Esperamos ver aplicações mais inovadoras baseadas neste modelo no futuro.