Caiyun Xiaomeng v3.5はオンラインです！変圧器効率を改善するためのブレークスルー-AI記事

著者：Eve Cole 更新時間：2025-02-05 20:00:02

Caiyun Technologyは、DCFormerアーキテクチャに基づいた一般的な大きなモデル「Yun Jintianzhang」とCaiyun Xiaomeng v3.5バージョンをリリースし、AIの分野でのモデルアーキテクチャ効率の大きなブレークスルーをマークしました。 DCFormerアーキテクチャは、動的に組み合わされたマルチヘッド注意メカニズムを通じてモデル発現機能を大幅に改善し、従来のトランスアーキテクチャの非効率性の問題を解決し、AI開発が直面するエネルギーの課題に効果的に対応します。このイノベーションは、The Top International Conference ICMLで公開されており、高い評価を受けています。

AIの分野では、Transformer Architectureは常にChatGptやGeminiなどの主流の大きなモデルのコアテクニカルサポートです。今年、Caiyun Technologyの論文「動的に構成可能なマルチヘッド注意を備えた変圧器の改善」は、The Top International Conference ICMLで公開され、DCFormerアーキテクチャを最初に提案しました。テストは、このアーキテクチャに基づいて開発されたDCPYTHIA-6.9Bモデルが、従来のトランスモデルのパフォーマンスが1.7〜2倍の大幅な改善を達成することを示しています。 AI開発が直面しているエネルギーの課題に関して、Caiyun TechnologyのCEOであるYuan Xingyuanは、予測によれば、世界のAI電力消費が2050年までに現在の地球の発電容量の8倍に達する可能性があると指摘しました。 Nvidia CEOのHuang Renxunは、現在の開発速度で、「14の惑星、3つの銀河、および4つの太陽」がAIにエネルギーサポートを提供するために必要になる可能性があるとより鮮明に述べました。このジレンマに対応して、カイユンテクノロジーは、モデルの基礎となるアーキテクチャの改善から始めることを選択しました。動的に組み合わせたマルチヘッド注意（DCMHA）メカニズムを導入することにより、DCFORMERは従来のマルチヘッド注意モジュール（MHA）の注意ヘッドの固定結合を削除し、より柔軟な動的な組み合わせを実現し、モデル発現能力を大幅に改善します。このイノベーションにより、CaiyunテクノロジーはICML会議で3つの論文で平均7つのハイスコアを獲得することができ、ウィーンのICML2024でスピーチを行うように招待される中国で唯一の2つの企業の1つになりました。 DCFORMERアーキテクチャの最初の製品として、Caiyun Xiaomengの新しいバージョンは優れたパフォーマンスを示しています。10,000ワードの長いテキスト入力をサポートし、ストーリーの背景設定の長さは10,000語に達する可能性があり、全体的な流encyさと一貫性が20％改善されます。。これは、AIがプロットの一貫性をよりよく維持し、キャラクターの性格の一貫性を維持し、プロットを反映して修正する能力を持つことができることを意味します。大規模な言語モデルに参加する中国で最も初期の企業の1つとして、Caiyun Technologyには現在、Caiyun Weather、Caiyun Xiaomeng、Caiyun Xiaoyiの3つの有益なAI製品があります。同社は、DCFormerへのR＆D投資を引き続き増やすと述べ、「外国の技術層と国内アプリケーション層」の従来のパターンを破り、世界的な競争で有利な地位を占める国内のAI技術を促進することに取り組んでいます。この技術的ブレークスルーを通じて、カイユンテクノロジーは、AI基礎となる建築の革新における中国企業の強さを実証するだけでなく、AI技術の持続可能な開発を加速することが期待されるAIの開発におけるエネルギーボトルネックを解決するための新しいアイデアも提供します。。

Caiyun Technologyの革新は、基礎となるアーキテクチャにおけるブレークスルーに新たな希望をもたらしました。