Yuanxiang lance le grand modèle open source XVERSE-MoE-A36B du MoE avec des paramètres d'activation atteignant 36B

Auteur：Eve Cole Date de mise à jour：2024-12-11 08:16:01

Shenzhen Yuanxiang Information Technology Co., Ltd. lance le plus grand modèle open source de mélange d'experts (MoE) de Chine - XVERSE-MoE-A36B. Ses 255 milliards de paramètres au total et 36 milliards de paramètres d'activation rendent ses performances comparables, voire supérieures, à de nombreux paramètres plus importants. . Ce modèle a permis d'améliorer considérablement le temps de formation et les performances d'inférence, de réduire considérablement le coût par jeton et de fournir un support solide pour le déploiement à faible coût d'applications d'IA. Cette percée marque les progrès significatifs de la Chine dans le domaine des modèles linguistiques à grande échelle, propulsant la technologie open source nationale à une position de leader international. Le modèle XVERSE-MoE-A36B est entièrement open source et gratuit pour un usage commercial, fournissant des ressources précieuses aux petites et moyennes entreprises, aux chercheurs et aux développeurs.

Le modèle XVERSE-MoE-A36B dispose de 255 B de paramètres totaux et de 36 B de paramètres d'activation. Ses performances sont comparables à celles des grands modèles avec plus de 100 B de paramètres, permettant ainsi un saut de performances à plusieurs niveaux. Le modèle réduit le temps de formation de 30 %, améliore les performances d'inférence de 100 %, réduit considérablement le coût par jeton et rend possible le déploiement à faible coût d'applications d'IA. Les modèles de la série de seaux familiaux hautes performances de Yuanxiang XVERSE sont entièrement open source et sont inconditionnellement gratuits pour une utilisation commerciale, ce qui offre plus de choix à de nombreuses petites et moyennes entreprises, chercheurs et développeurs. L'architecture MoE brise les limites des lois d'expansion traditionnelles en combinant des modèles experts dans plusieurs subdivisions. Tout en élargissant l'échelle du modèle, elle maintient des performances maximales du modèle et réduit les coûts de calcul de formation et d'inférence. Dans plusieurs évaluations faisant autorité, l'effet du Yuanxiang MoE a largement dépassé celui de nombreux modèles similaires, y compris le modèle national de 100 milliards de MoE Skywork-MoE, le suzerain traditionnel du MoE Mixtral-8x22B et le modèle open source MoE de 314 milliards de paramètres Grok-1. -A86B etc.

Les modèles de la série de seaux familiaux hautes performances de Yuanxiang XVERSE sont entièrement open source et sont inconditionnellement gratuits pour une utilisation commerciale, ce qui offre plus de choix à de nombreuses petites et moyennes entreprises, chercheurs et développeurs. L'architecture MoE brise les limites des lois d'expansion traditionnelles en combinant des modèles experts dans plusieurs subdivisions. Tout en élargissant l'échelle du modèle, elle maintient des performances maximales du modèle et réduit les coûts de calcul de formation et d'inférence.

Dans plusieurs évaluations faisant autorité, l'effet du Yuanxiang MoE a largement dépassé celui de nombreux modèles similaires, y compris le modèle national de 100 milliards de MoE Skywork-MoE, le suzerain traditionnel du MoE Mixtral-8x22B et le modèle open source MoE de 314 milliards de paramètres Grok-1. -A86B etc.

Téléchargement gratuit de grands modèles

Visage câlin : https://huggingface.co/xverse/XVERSE-MoE-A36B
Portée magique : https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github : https://github.com/xverse-ai/XVERSE-MoE-A36B
Demandes de renseignements : [email protected]
Site officiel : chat.xverse.cn

L'utilisation commerciale open source et gratuite de XVERSE-MoE-A36B abaisse le seuil des applications d'IA et favorisera grandement le développement et l'application de la technologie chinoise d'intelligence artificielle. Ses excellentes performances et son accès pratique fournissent sans aucun doute des outils et des ressources puissants aux développeurs et chercheurs nationaux et étrangers en IA. Au plaisir de voir des applications plus innovantes basées sur ce modèle à l’avenir.