Caiyun Technology a publié le grand modèle "Yun Jintianzhang" et Caiyun Xiaomeng V3.5 basé sur l'architecture DCFORMER, marquant une percée majeure dans l'efficacité de l'architecture modèle dans le domaine de l'IA. L'architecture DCFORMER améliore considérablement les capacités d'expression du modèle grâce à un mécanisme d'attention multi-tête combiné dynamiquement, résout le problème de l'inefficacité des architectures de transformateurs traditionnelles et répond efficacement aux défis énergétiques confrontés au développement de l'IA. Cette innovation a été publiée lors de la première conférence internationale ICML et a reçu des éloges élevés.
Dans le domaine de l'IA, l'architecture du transformateur a toujours été le support technique de base pour les grands modèles grand public tels que Chatgpt et Gemini. Cette année, l'article de Caiyun Technology "Améliorer les transformateurs avec une attention multiple à la tête dynamiquement composable" publié lors de la principale conférence internationale ICML, est le premier à proposer l'architecture de Dcformer. Des tests montrent que le modèle DCPYTHIA-6.9B développé basé sur cette architecture atteint une amélioration significative de 1,7 à 2 fois de performance au modèle de transformateur traditionnel. En ce qui concerne les défis énergétiques confrontés au développement de l'IA, Yuan Xingyuan, PDG de Caiyun Technology, a souligné que, selon les prévisions, la consommation d'énergie mondiale d'IA peut atteindre 8 fois la capacité actuelle de production de puissance de la Terre d'ici 2050. Le PDG de Nvidia, Huang Renxun, a déclaré plus vivement qu'à la vitesse de développement actuelle, "14 planètes, 3 galaxies et 4 soleils" pourraient être nécessaires à l'avenir pour fournir un soutien énergétique à l'IA. En réponse à ce dilemme, la technologie Caiyun a choisi de commencer à améliorer l'architecture sous-jacente du modèle. En introduisant un mécanisme d'attention multi-têtes combiné dynamiquement (DCMHA), DCFORMER a supprimé la liaison fixe des têtes d'attention dans le module d'attention multi-tête traditionnel (MHA), réalisant des combinaisons dynamiques plus flexibles, améliorant ainsi considérablement la capacité d'expression du modèle. Cette innovation a permis à CAIYUN Technology de marquer en moyenne 7 scores élevés dans trois articles lors de la conférence ICML, et est devenu l'une des deux seules sociétés en Chine à être invitée à prononcer un discours à l'ICML2024 à Vienne. En tant que premier produit de l'architecture DCFORMER, la nouvelle version de Caiyun Xiaomeng a montré d'excellentes performances: elle prend en charge 10 000 mots d'une entrée de texte long, la longueur du réglage de l'histoire peut atteindre 10 000 mots, et la fluidité et la cohérence globales sont améliorées de 20% . Cela signifie que l'IA peut mieux maintenir la cohérence de l'intrigue, maintenir la cohérence des personnalités des personnages et avoir la capacité de réfléchir et de corriger les parcelles. En tant que l'une des premières sociétés en Chine à s'impliquer dans des modèles de grande langue, Caiyun Technology a actuellement trois produits d'IA rentables: Caiyun Weather, Caiyun Xiaomeng et Caiyun Xiaoyi. La société a déclaré qu'elle continuerait d'augmenter son investissement en R&D dans DCFORMER et s'est engagée à briser le modèle traditionnel de "couche de technologie étrangère et couche d'application intérieure" et promouvoir la technologie d'IA intérieure pour occuper une position avantageuse dans la concurrence mondiale. Grâce à cette percée technologique, la technologie Caiyun démontre non seulement la force des entreprises chinoises dans l'innovation de l'architecture sous-jacente de l'IA, mais fournit également de nouvelles idées pour résoudre les goulots d'étranglement énergétiques dans le développement de l'IA, qui devrait accélérer le développement durable de la technologie de l'IA .
L'innovation de Caiyun Technology a apporté un nouvel espoir au développement de l'IA.