Caiyun Xiaomeng v3.5 está online! Avanço para melhorar a eficiência do transformador - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-02-05 20:00:02

A tecnologia Caiyun lançou o grande modelo "Yun Jintianzhang" e a versão de Caiyun Xiaomeng v3.5 com base na arquitetura do DCFormer, marcando um grande avanço na eficiência da arquitetura do modelo no campo da IA. A arquitetura do DCFormer melhora significativamente os recursos de expressão do modelo através de um mecanismo de atenção de várias cabeças dinamicamente combinado, resolve o problema da ineficiência das arquiteturas tradicionais de transformadores e responde efetivamente aos desafios energéticos enfrentados pelo desenvolvimento da IA. Essa inovação foi publicada no Top International Conference ICML e recebeu elogios.

No campo da IA, a arquitetura do transformador sempre foi o principal suporte técnico para grandes modelos grandes, como ChatGPT e Gêmeos. Este ano, o artigo da Caiyun Technology "Melhorando transformadores com atenção multi-cabeça dinamicamente composta" publicada no Top International Conference ICML, é a primeira a propor a arquitetura do DCFormer. Os testes mostram que o modelo DCPythia-6.9b desenvolvido com base nessa arquitetura alcança uma melhoria significativa de 1,7-2 vezes no desempenho do modelo tradicional de transformador. Em relação aos desafios energéticos enfrentados pelo desenvolvimento da IA, Yuan Xingyuan, CEO da Caiyun Technology, apontou que, de acordo com as previsões, o consumo global de energia da IA pode atingir 8 vezes a capacidade atual de geração de energia da Terra até 2050. O CEO da NVIDIA, Huang Renxun, disse mais vividamente que, na velocidade atual do desenvolvimento, "14 planetas, 3 galáxias e 4 sóis" podem ser necessários no futuro para fornecer suporte energético à IA. Em resposta a esse dilema, a tecnologia Caiyun optou por começar ao melhorar a arquitetura subjacente do modelo. Ao introduzir um mecanismo dinamicamente combinado de atenção de várias cabeças (DCMHA), o DCFormer removeu a ligação fixa das cabeças de atenção no módulo de atenção de várias cabeças tradicional (MHA), alcançando combinações dinâmicas mais flexíveis, melhorando bastante a capacidade de expressão do modelo. Essa inovação permitiu que a tecnologia Caiyun obteve uma média de 7 pontuações altas em três artigos na conferência ICML e se tornou uma das duas únicas empresas da China a ser convidado a fazer um discurso no ICML2024 em Viena. Como o primeiro produto da arquitetura do DCFormer, a nova versão do Caiyun Xiaomeng mostrou excelente desempenho: suporta 10.000 palavras de entrada longa de texto, o comprimento da configuração de fundo da história pode atingir 10.000 palavras e a fluência e a coerência geral são aprimoradas em 20%. Isso significa que a IA pode manter melhor a coerência da trama, manter a consistência das personalidades dos personagens e ter a capacidade de refletir e corrigir gráficos. Como uma das primeiras empresas da China a se envolver em grandes modelos de idiomas, a tecnologia Caiyun atualmente possui três produtos lucrativos de IA: Caiyun Weather, Caiyun Xiaomeng e Caiyun Xiaoyi. A empresa disse que continuará aumentando seu investimento em P&D no DCformer e está comprometido em quebrar o padrão tradicional de "camada de tecnologia estrangeira e camada de aplicação doméstica" e promover a tecnologia doméstica de IA para ocupar uma posição vantajosa na concorrência global. Com esse avanço tecnológico, a tecnologia Caiyun não apenas demonstra a força das empresas chinesas na inovação da arquitetura subjacente da IA, mas também fornece novas idéias para resolver os gargalos de energia no desenvolvimento da IA, que deve acelerar o desenvolvimento sustentável da tecnologia de IA .

A inovação da Caiyun Technology trouxe nova esperança ao desenvolvimento da IA.