Команда разработчиков больших языковых моделей OpenBuddy с открытым исходным кодом выпускает китайскую версию модели Llama3.1-8B

Автор：Eve Cole Время обновления：2024-12-14 09:32:01

Последняя версия серии моделей Llama 3.1 с открытым исходным кодом компании Meta достигла значительного прорыва в производительности, а ее версия с параметрами 405B даже превосходит некоторые модели с закрытым исходным кодом. Среди них версия Llama3.1-8B-Instruct поддерживает несколько языков с длиной контекста до 131072 токенов и обучается на огромных синтетических данных для улучшения своих возможностей рассуждения в таких областях, как код и математика. На основе этой модели команда OpenBuddy запустила модель OpenBuddy-Llama3.1-8B-v22.1-131K, которая поддерживает вопросы и ответы на китайском языке, а также межъязыковый перевод, демонстрируя потенциал моделей с открытым исходным кодом в многоязычных приложениях.

Meta недавно выпустила новое поколение серии моделей с открытым исходным кодом Llama3.1, которая включает версию с параметром 405B, производительность которой близка или даже превосходит модели с закрытым исходным кодом, такие как GPT-4, в некоторых тестах производительности. Llama3.1-8B-Instruct — это версия серии с 8B параметрами, поддерживает английский, немецкий, французский, итальянский, португальский, испанский, хинди и тайский языки, длина контекста до 131072 токенов, срок получения знаний обновлен до декабря 2023 года.

Чтобы расширить возможности Llama3.1-8B-Instruct, Meta использовала при обучении более 25 миллионов фрагментов синтетических данных, сгенерированных более крупной моделью 405B. Это позволяет Llama3.1-8B-Instruct демонстрировать те же когнитивные и рассуждения, что и GPT3.5Turbo, в тестах по программированию, математике и других тестах.

OpenBuddy использует модель Llama3.1-8B-Instruct и обучается на небольшом объеме данных на китайском языке для выпуска OpenBuddy-Llama3.1-8B-v22.1-131k, нового поколения с китайскими вопросами и ответами и возможностями межъязыкового перевода. Межъязыковая модель с открытым исходным кодом. Хотя сама Llama3.1 не обладает китайскими возможностями, после обучения модель способна генерировать ответы, которые обычно могут генерировать только более крупные модели, на некоторые вопросы, склонные к концептуальной путанице, демонстрируя более сильный когнитивный потенциал.

Однако из-за ограничений набора данных и времени обучения OpenBuddy-Llama3.1-8B-v22.1 по-прежнему имеет ограничения в знаниях китайского языка, особенно традиционных культурных знаний. Несмотря на это, модель демонстрирует относительно стабильную производительность при выполнении таких задач, как понимание длинного текста, что позволяет использовать исходные возможности длинного текста.

В будущем OpenBuddy планирует провести более масштабное обучение моделей 8B и 70B, чтобы расширить запас знаний модели по китайскому языку, способность писать длинные тексты и когнитивные способности, а также изучить возможность тонкой настройки модели 405B.

Адрес проекта: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

Выпуск модели OpenBuddy-Llama3.1-8B-v22.1-131k знаменует собой новый этап в развитии многоязычных моделей с открытым исходным кодом. Хотя еще есть возможности для улучшения знаний китайского языка, его потенциал стоит с нетерпением ждать. В будущем, по мере расширения масштабов обучения моделей, ожидается, что его эффективность будет еще больше улучшаться. Ожидайте новых сюрпризов от команды OpenBuddy в будущем.