Редактор Downcodes узнал, что Cohere недавно выпустила две мощные модели искусственного интеллекта с открытым исходным кодом — Aya Expanse 8B и 35B, которые официально запущены на платформе Hugging Face. Эти две модели призваны устранить разрыв в производительности между базовыми моделями на разных языках, значительно улучшить возможности ИИ на 23 языках и предоставить глобальным исследователям ИИ более удобные инструменты и более мощные многоязычные возможности. Проект Aya стремится расширить доступ к неанглоязычным базовым моделям. Его метод арбитража данных и стратегия обучения «глобальных предпочтений» эффективно позволяют избежать создания некачественного контента и повысить общую производительность и безопасность модели. Далее давайте углубимся в особенности обеих моделей.
Недавно Cohere объявила о запуске двух новых моделей искусственного интеллекта с открытым исходным кодом, стремясь сократить языковой разрыв между базовыми моделями посредством своего проекта Aya. Две новые модели под названием Aya Expanse8B и 35B теперь доступны на Hugging Face. Запуск этих двух моделей значительно улучшил производительность ИИ на 23 языках.
Когер сказал в своем блоге, что модель параметров 8B облегчает исследователям по всему миру достижение прорывов, а модель параметров 32B обеспечивает лучшие в отрасли многоязычные возможности.
Цель проекта Aya — расширить доступ к базовой модели для большего количества языков, помимо английского. До этого исследовательский отдел Cohere в прошлом году запустил проект Aya и в феврале выпустил модель большого языка (LLM) Aya101, которая охватывает 101 язык. Кроме того, Cohere также запустила набор данных Aya для облегчения обучения моделей на других языках.
Модель Aya Expanse в процессе построения следует многим основным методам Aya101. Когер заявил, что улучшения Aya Expanse являются результатом многолетнего переосмысления основных строительных блоков прорывных решений в области машинного обучения. Направление их исследований в основном сосредоточено на сокращении языкового разрыва, и они достигли некоторых ключевых прорывов, таких как арбитраж данных, обучение предпочтениям для общей производительности и безопасности, а также слияние моделей.
В ходе многочисленных тестов производительности Кохер заявил, что две модели Aya Expanse превзошли модели искусственного интеллекта аналогичного размера от таких компаний, как Google, Mistral и Meta.
Среди них Aya Expanse32B превзошла Gemma227B, Mistral8x22B и даже более крупный Llama3.170B в многоязычных тестах производительности. Небольшая модель 8B также превзошла Gemma29B, Llama3.18B и Ministral8B с процентом выигрышей от 60,4% до 70,6%.
Чтобы избежать создания сложного для понимания контента, Cohere использует метод выборки данных, называемый арбитражем данных. Этот подход позволяет лучше обучать модели, особенно для языков с низким уровнем ресурсов. Кроме того, Cohere ориентирован на то, чтобы ориентировать модели на «глобальные предпочтения» и учитывать перспективы различных культур и языков для повышения производительности и безопасности модели.
Программа Aya компании Cohere направлена на то, чтобы студенты LLM могли лучше проводить исследования на языках, отличных от английского. Хотя многие LLM в конечном итоге будут выпущены на других языках, они часто сталкиваются с проблемой недостаточности данных при обучении моделей, особенно для языков с низким уровнем ресурсов. Поэтому усилия Cohere особенно важны для создания многоязычных моделей ИИ.
Официальный блог: https://cohere.com/blog/aya-expanse-connecting-our-world
Выделять:
? **Cohere запускает две новые модели искусственного интеллекта**, направленные на сокращение языкового разрыва базовых моделей и поддержку повышения производительности на 23 языках.
**Модель Aya Expanse работает хорошо**, превосходя многих конкурентов по многоязычным тестам.
**Метод арбитража данных** помогает модели избежать создания некачественного контента, обратить внимание на глобальные культурные и языковые перспективы, а также улучшить обучающий эффект многоязычного ИИ.
В целом, модель Aya Expanse, запущенная Cohere, добилась значительного прогресса в области многоязычного ИИ, а ее открытый исходный код также предоставляет ценные ресурсы для исследований и разработок глобального сообщества ИИ. Редактор Downcodes считает, что это будет способствовать дальнейшему развитию многоязычных технологий искусственного интеллекта и глобальному обмену информацией.