Yuanxiang veröffentlicht das MoE-Open-Source-Großmodell XVERSE-MoE-A36B mit Aktivierungsparametern von 36B

Autor：Eve Cole Aktualisierungszeit：2024-12-11 08:16:01

Shenzhen Yuanxiang Information Technology Co., Ltd. bringt Chinas größtes Open-Source-Großmodell „Mixture of Experts“ (MoE) auf den Markt – XVERSE-MoE-A36B. Seine 255B Gesamtparameter und 36B Aktivierungsparameter machen seine Leistung mit vielen größeren Parametern vergleichbar oder sogar überlegen . Dieses Modell hat erhebliche Verbesserungen bei der Trainingszeit und der Inferenzleistung erzielt, die Kosten pro Token erheblich gesenkt und eine starke Unterstützung für die kostengünstige Bereitstellung von KI-Anwendungen bereitgestellt. Dieser Durchbruch markiert Chinas bedeutenden Fortschritt im Bereich groß angelegter Sprachmodelle und bringt die heimische Open-Source-Technologie zu einer führenden internationalen Position. Das XVERSE-MoE-A36B-Modell ist vollständig Open Source und für die kommerzielle Nutzung kostenlos und stellt wertvolle Ressourcen für kleine und mittlere Unternehmen, Forscher und Entwickler bereit.

Das XVERSE-MoE-A36B-Modell verfügt über 255B Gesamtparameter und 36B Aktivierungsparameter. Seine Leistung ist mit großen Modellen mit mehr als 100B Parametern vergleichbar und erreicht einen Leistungssprung über alle Ebenen hinweg. Das Modell reduziert die Trainingszeit um 30 %, verbessert die Inferenzleistung um 100 %, senkt die Kosten pro Token erheblich und ermöglicht die kostengünstige Bereitstellung von KI-Anwendungen. Die Hochleistungsmodelle der Family-Bucket-Serie von Yuanxiang Die MoE-Architektur durchbricht die Beschränkungen traditioneller Erweiterungsgesetze, indem sie Expertenmodelle in mehreren Unterteilungen kombiniert. Während sie den Modellmaßstab erweitert, behält sie die maximale Modellleistung bei und reduziert die Rechenkosten für Training und Inferenz. In mehreren maßgeblichen Bewertungen hat die Wirkung von Yuanxiang MoE die vieler ähnlicher Modelle deutlich übertroffen, darunter das inländische 100-Milliarden-MoE-Modell Skywork-MoE, das traditionelle MoE-Overlord Mixtral-8x22B und das 314-Milliarden-Parameter-MoE-Open-Source-Modell Grok-1 - A86B usw.

Die Hochleistungsmodelle der Family-Bucket-Serie von Yuanxiang Die MoE-Architektur durchbricht die Beschränkungen traditioneller Expansionsgesetze, indem sie Expertenmodelle in mehreren Unterteilungen kombiniert. Während sie den Modellmaßstab erweitert, behält sie die maximale Modellleistung bei und reduziert die Rechenkosten für Training und Inferenz.

In mehreren maßgeblichen Bewertungen hat die Wirkung von Yuanxiang MoE die vieler ähnlicher Modelle deutlich übertroffen, darunter das inländische 100-Milliarden-MoE-Modell Skywork-MoE, das traditionelle MoE-Overlord Mixtral-8x22B und das 314-Milliarden-Parameter-MoE-Open-Source-Modell Grok-1 - A86B usw.

Kostenloser Download großer Modelle

Umarmendes Gesicht: https://huggingface.co/xverse/XVERSE-MoE-A36B
Magic Scope: https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github: https://github.com/xverse-ai/XVERSE-MoE-A36B
Anfragen: [email protected]
Offizielle Website: chat.xverse.cn

Die Open-Source- und kostenlose kommerzielle Nutzung von XVERSE-MoE-A36B senkt die Schwelle für KI-Anwendungen und wird die Entwicklung und Anwendung von Chinas Technologie für künstliche Intelligenz erheblich fördern. Seine hervorragende Leistung und sein bequemer Zugriff bieten zweifellos leistungsstarke Tools und Ressourcen für in- und ausländische KI-Entwickler und -Forscher. Freuen Sie sich darauf, in Zukunft weitere innovative Anwendungen auf Basis dieses Modells zu sehen.