Фонд открытого исходного кода RWKV выпустил модель RWKV-6-World14B, которая в настоящее время является одной из самых мощных моделей большого языка с высокой плотностью чистого RNN в мире. Модель отличается многоязычными возможностями, поддерживает более 100 языков и кодов и превосходит такие модели, как Llama2 13B и Qwen 1.5 14B, в нескольких тестах. Его превосходная производительность обусловлена улучшением архитектуры RWKV и отсутствием оптимизации для конкретных тестов производительности в процессе обучения, обеспечивая истинные возможности и возможности обобщения модели. Пользователи могут легко загрузить и развернуть модель на таких платформах, как Hugging Face, ModelScope и WiseModel.
19 июля 2024 года Фонд открытого исходного кода RWKV объявил о глобальном открытом исходном коде модели RWKV-6-World14B, которая на данный момент является самой сильной моделью большого языка с плотной чистой RNN. Модель показала хорошие результаты в последнем тесте производительности: производительность на английском языке эквивалентна Llama213B, а также значительно опережает производительность на нескольких языках, поддерживая более 100 языков и кодов по всему миру.
Бенчмарк-тест модели включает в себя 4 модели больших языков с открытым исходным кодом со шкалой около 14B параметров, 12 независимых эталонных тестов для оценки производительности английского языка и четыре эталонных теста xLAMBDA, xStoryCloze, xWinograd и xCopa для оценки многоязычных возможностей. RWKV-6-World14B показал хорошие результаты в этих тестах, особенно в рейтинговом списке Uncheatable Eval, где комплексная оценка превысила llama213B и Qwen1.514B.
Улучшение производительности модели RWKV-6-World14B обусловлено архитектурными улучшениями от RWKV-4 до RWKV-6. Эта модель не добавляла никаких наборов данных тестового тестирования во время обучения, избегая специальной оптимизации, поэтому ее фактическая способность выше, чем рейтинг оценок. В ходе оценки Uncheatable Eval RWKV-6-World14B оценивался на основе данных в реальном времени, таких как последние статьи arXiv, новости, романы ao3 и коды GitHub, выпущенные в июле, что показало его реальные возможности моделирования и возможности обобщения.
В настоящее время модель RWKV-6-World14B можно загрузить и развернуть локально с помощью таких платформ, как Hugging Face, ModelScope и WiseModel. Поскольку Ai00 поддерживает только модели в формате Safetensor (.st), вы также можете загрузить модели, преобразованные в формат .st, со склада Ai00HF. Требования к графической памяти для локального развертывания и вывода модели RWKV-6-World14B варьируются от 10 до 28 ГБ в зависимости от метода количественной оценки.
Предварительный просмотр эффектов модели RWKV-6-World14B включает обработку естественного языка (анализ тональности, понимание машинного чтения), создание прозы и литературных произведений, чтение и изменение кодов, предложения по выбору темы финансовых статей, извлечение ключевого содержания новостей, одно предложение. расширение текста и написание нескольких сценариев приложений, таких как игра Python Snake.
Следует отметить, что все выпущенные модели RWKV с открытым исходным кодом являются базовыми моделями, имеющими определенные командные и диалоговые возможности, но не оптимизированными для конкретных задач. Если вы хотите, чтобы модель RWKV хорошо работала при выполнении конкретной задачи, рекомендуется использовать наборы данных связанных задач для точной настройки обучения.
Адрес проекта:
Обнимающее лицо: https://huggingface.co/BlinkDL/rwkv-6-world/tree/main
ModelScope: https://modelscope.cn/models/RWKV/rwkv-6-world/files
WiseModel: https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file
Короче говоря, открытый исходный код модели RWKV-6-World14B принес новые прорывы в область больших языковых моделей. Ее высокая производительность и широкие перспективы применения заслуживают внимания. Разработчики могут загружать и проводить дальнейшее исследование и применение на различных платформах в соответствии со своими потребностями.