Yuanxiang выпускает большую модель MoE с открытым исходным кодом XVERSE-MoE-A36B с параметрами активации, достигающими 36B

Автор：Eve Cole Время обновления：2024-12-11 08:16:01

Компания Shenzhen Yuanxiang Information Technology Co., Ltd. запускает крупнейшую в Китае большую модель с открытым исходным кодом Mixture of Experts (MoE) - XVERSE-MoE-A36B. Ее общие параметры 255B и параметры активации 36B делают ее производительность сопоставимой или даже превосходящей многие модели с более крупными параметрами. . Эта модель позволила значительно сократить время обучения и производительность вывода, значительно снизить стоимость токена и обеспечить надежную поддержку недорогого развертывания приложений искусственного интеллекта. Этот прорыв знаменует собой значительный прогресс Китая в области крупномасштабных языковых моделей, выведя отечественную технологию с открытым исходным кодом на лидирующие международные позиции. Модель XVERSE-MoE-A36B имеет полностью открытый исходный код и бесплатна для коммерческого использования, предоставляя ценные ресурсы для малых и средних предприятий, исследователей и разработчиков.

Модель XVERSE-MoE-A36B имеет общее количество параметров 255B и параметры активации 36B. Ее производительность сопоставима с большими моделями с более чем 100B параметрами, что обеспечивает скачок производительности между уровнями. Модель сокращает время обучения на 30 %, повышает производительность вывода на 100 %, значительно снижает стоимость токена и делает возможным недорогое развертывание приложений искусственного интеллекта. Высокопроизводительные семейные модели ковшей Yuanxiang XVERSE имеют полностью открытый исходный код и безоговорочно бесплатны для коммерческого использования, что предоставляет многим малым и средним предприятиям, исследователям и разработчикам более широкий выбор. Архитектура MoE преодолевает ограничения традиционных законов расширения, объединяя экспертные модели в нескольких подразделениях. При расширении масштаба модели сохраняется максимальная производительность модели и снижаются вычислительные затраты на обучение и вывод. По многочисленным авторитетным оценкам, эффект Yuanxiang MoE значительно превзошел эффект многих аналогичных моделей, включая отечественную модель Skywork-MoE на 100 миллиардов MoE, традиционный повелитель MoE Mixtral-8x22B и модель MoE с открытым исходным кодом на 314 миллиардов параметров Grok-1. - А86Б и др.

Высокопроизводительные модели семейных ковшей Yuanxiang XVERSE имеют полностью открытый исходный код и безоговорочно бесплатны для коммерческого использования, что предоставляет многим малым и средним предприятиям, исследователям и разработчикам более широкий выбор. Архитектура MoE преодолевает ограничения традиционных законов расширения, объединяя экспертные модели в нескольких подразделениях. При расширении масштаба модели сохраняется максимальная производительность модели и снижаются вычислительные затраты на обучение и вывод.

По многочисленным авторитетным оценкам, эффект Yuanxiang MoE значительно превзошел эффект многих аналогичных моделей, включая отечественную модель Skywork-MoE на 100 миллиардов MoE, традиционный повелитель MoE Mixtral-8x22B и модель MoE с открытым исходным кодом на 314 миллиардов параметров Grok-1. - А86Б и др.

Бесплатная загрузка больших моделей

Обнимающее лицо: https://huggingface.co/xverse/XVERSE-MoE-A36B
Волшебный прицел: https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Гитхаб: https://github.com/xverse-ai/XVERSE-MoE-A36B
Вопросы: [email protected]
Официальный сайт:chat.xverse.cn.

Открытый исходный код и бесплатное коммерческое использование XVERSE-MoE-A36B снижает порог для приложений искусственного интеллекта и будет значительно способствовать развитию и применению китайской технологии искусственного интеллекта. Его превосходная производительность и удобный доступ, несомненно, предоставляют мощные инструменты и ресурсы для отечественных и зарубежных разработчиков и исследователей искусственного интеллекта. Надеемся увидеть в будущем еще больше инновационных приложений на основе этой модели.