Shenzhen Yuanxiang Information Technology Co., Ltd. は、中国最大の Mixture of Experts (MoE) オープンソース大規模モデル XVERSE-MoE-A36B を発表し、その 255B の合計パラメーターと 36B のアクティベーション パラメーターにより、そのパフォーマンスは多くのより大きなパラメーター モデルと同等か、さらに優れています。 。このモデルは、トレーニング時間と推論パフォーマンスの大幅な改善を達成し、トークンあたりのコストを大幅に削減し、AI アプリケーションの低コスト展開を強力にサポートします。この躍進は、大規模言語モデルの分野における中国の大きな進歩を示し、国内のオープンソース技術を国際的に主導的な地位に押し上げた。 XVERSE-MoE-A36B モデルは完全にオープンソースであり、商用利用は無料であり、中小企業、研究者、開発者に貴重なリソースを提供します。
XVERSE-MoE-A36B モデルには、合計 255B のパラメータと 36B のアクティベーション パラメータがあり、そのパフォーマンスは 100B を超えるパラメータを持つ大型モデルに匹敵し、レベル間のパフォーマンスの向上を実現します。このモデルにより、トレーニング時間が 30% 削減され、推論パフォーマンスが 100% 向上し、トークンあたりのコストが大幅に削減され、AI アプリケーションの低コスト展開が可能になります。 Yuanxiang XVERSE の高性能ファミリー バケット シリーズ モデルは完全にオープンソースであり、商用利用が無条件に無料であるため、多くの中小企業、研究者、開発者により多くの選択肢を提供します。 MoE アーキテクチャは、複数のサブディビジョンでエキスパート モデルを組み合わせることで、従来の拡張の法則の制限を打ち破り、モデルのスケールを拡張しながら、モデルのパフォーマンスを最大に維持し、トレーニングと推論の計算コストを削減します。複数の信頼できる評価において、Yuanxiang MoE の効果は、国内の 1,000 億 MoE モデル Skywork-MoE、従来の MoE オーバーロード Mixtral-8x22B、3,140 億パラメータの MoE オープンソース モデル Grok-1 など、多くの同様のモデルの効果を大幅に上回っています。 -A86Bなど
Yuanxiang XVERSE の高性能ファミリー バケット シリーズ モデルは完全にオープンソースであり、商用利用が無条件に無料であるため、多くの中小企業、研究者、開発者により多くの選択肢を提供します。 MoE アーキテクチャは、複数のサブディビジョンでエキスパート モデルを組み合わせることで、従来の拡張の法則の制限を打ち破り、モデルのスケールを拡張しながら、モデルのパフォーマンスを最大に維持し、トレーニングと推論の計算コストを削減します。
複数の信頼できる評価において、Yuanxiang MoE の効果は、国内の 1,000 億 MoE モデル Skywork-MoE、従来の MoE オーバーロード Mixtral-8x22B、3,140 億パラメータの MoE オープンソース モデル Grok-1 など、多くの同様のモデルの効果を大幅に上回っています。 -A86Bなど
大きなモデルを無料でダウンロード
ハグフェイス: https://huggingface.co/xverse/XVERSE-MoE-A36B
マジックスコープ: https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github: https://github.com/xverse-ai/XVERSE-MoE-A36B
お問い合わせ: [email protected]
公式ウェブサイト: chat.xverse.cn
XVERSE-MoE-A36B のオープンソースと無料商用利用は、AI アプリケーションの敷居を下げ、中国の人工知能技術の開発と応用を大きく促進します。 その優れたパフォーマンスと便利なアクセスは、間違いなく国内外の AI 開発者や研究者に強力なツールとリソースを提供します。 将来的には、このモデルに基づくさらに革新的なアプリケーションが登場することを楽しみにしています。