Caiyun Xiaomeng v3.5 - онлайн! Прорыв для повышения эффективности трансформатора - статьи ИИ

Автор：Eve Cole Время обновления：2025-02-05 20:00:02

Caiyun Technology выпустила общую большую модель «Юн Джинтианжан» и версию Caiyun Xiaomeng v3.5 на основе архитектуры DCFormer, отмечая основной прорыв в эффективности архитектуры моделей в области искусственного интеллекта. Архитектура DCFormer значительно улучшает возможности выражения модели благодаря динамически комбинированному механизму внимания с несколькими головками, решает проблему неэффективности традиционных архитектур трансформатора и эффективно реагирует на энергетические проблемы, с которыми сталкивается развитие ИИ. Это инновация была опубликована на лучшей международной конференции ICML и получила высокую оценку.

В области ИИ архитектура трансформатора всегда была основной технической поддержкой для основных крупных моделей, таких как Chatgpt и Gemini. В этом году статья Caiyun Technology «Улучшение трансформаторов с динамически композиционным многоуровневым вниманием», опубликованное на лучшей международной конференции ICML, является первым, кто предложит архитектуру DCFormer. Тесты показывают, что модель DCPYTHIA-6,9B, разработанная на основе этой архитектуры, достигает значительного улучшения в 1,7-2 раза в производительности традиционной модели трансформатора. Что касается энергетических проблем, стоящих перед развитием ИИ, Юань Синьюань, генеральный директор Caiyun Technology, отметил, что в соответствии с прогнозами, глобальное энергопотребление ИИ может достигать в 8 раз превышает мощность производства электроэнергии Земли к 2050 году. Генеральный директор NVIDIA Хуан Ренксун сказал более ярко, что на нынешней скорости развития «14 планет, 3 галактики и 4 солнца» могут потребоваться в будущем, чтобы обеспечить энергетическую поддержку для ИИ. В ответ на эту дилемму технология Caiyun решила начать с улучшения базовой архитектуры модели. Вводя динамически комбинированный механизм с несколькими головками (DCMHA), DCFormer удалил фиксированное связывание головок внимания в традиционном модуле внимания с несколькими головками (MHA), достигая более гибких динамических комбинаций, тем самым значительно улучшив способность модели выражения. Это инновация позволила технологии Caiyun набрать в среднем 7 высоких баллов в трех работах на конференции ICML, и стала одной из единственных двух компаний в Китае, которые будут приглашены выступить на ICML2024 в Вене. Как первый продукт архитектуры DCFormer, новая версия Caiyun Xiaomeng показала отличную производительность: она поддерживает 10 000 слов длинного текстового ввода, длина настройки фонового фона может достигать 10 000 слов, а общая беглость и когерентность улучшаются на 20% Полем Это означает, что ИИ может лучше поддерживать согласованность сюжета, поддерживать последовательность личностей персонажей и иметь возможность отражать и исправлять участки. Будучи одной из первых компаний в Китае, которая участвует в крупных языковых моделях, в настоящее время у Caiyun есть три прибыльных продукта ИИ: Caiyun Weather, Caiyun Xiaomeng и Caiyun Xiaoyi. Компания заявила, что будет продолжать увеличивать инвестиции в исследования и разработки в DCFORMER и стремится нарушить традиционную модель «уровня иностранных технологий и внутреннего уровня применения» и продвижения внутренней технологии ИИ, чтобы занять выгодную позицию в глобальной конкуренции. Благодаря этому технологическому прорыву технология Caiyun не только демонстрирует силу китайских компаний в инновациях архитектуры ИИ, но и предоставляет новые идеи для решения узких мест энергии в разработке ИИ, который, как ожидается, ускорит устойчивое развитие технологии ИИ Полем

Инновация Caiyun Technology принесла новую надежду на разработку ИИ.