Компания xAI открыла исходный код своей гибридной экспертной модели Grok-1 с 314 миллиардами параметров, которая привлекла широкое внимание в области искусственного интеллекта. Веса модели и сетевая архитектура полностью открыты, она обучается с нуля на основе большого объема текстовых данных без тонкой настройки под конкретное приложение. Вес активации составляет 25%. Библиотека JAX и язык Rust используются для индивидуального обучения и соответствуют лицензии Apache2.0, что удобно для использования разработчиками и вторичной разработки. Открытый исходный код модели предоставляет исследователям ценные учебные и исследовательские ресурсы, а также способствует дальнейшему развитию в области искусственного интеллекта. Хотя некоторые исследователи считают, что его открытость нуждается в повышении, выпуск Грока-1, несомненно, является крупным прогрессом в области искусственного интеллекта.
Компания Маска xAI объявила, что откроет исходный код гибридной экспертной модели Grok-1 с 314 миллиардами параметров, полностью открытыми весами и сетевой архитектурой. Модель обучается с нуля без тонкой настройки под конкретное приложение. Она обучается на большом объеме текстовых данных. Вес активации модели MoE составляет 25%. Он использует библиотеку JAX и язык Rust для настройки стека обучения и соответствует лицензии Apache2.0, и его популярность продолжает расти. Репозиторий модели предоставляет пример кода JAX, для которого требуется большой объем памяти графического процессора, а также магнитную ссылку для загрузки файла весов. Исследователи оценили Grok-1 как менее открытый и более предсказуемый, чем LLaMA-2, предоставили детали архитектуры модели и призвали предоставить более публичные подробности.
Открытый исходный код Grok-1, хотя и есть некоторые разногласия с точки зрения открытости, его высокая производительность и открытая лицензия делают его моделью, достойной внимания и, как ожидается, будут способствовать развитию области больших языковых моделей. В будущем мы с нетерпением ожидаем появления новых подобных проектов с открытым исходным кодом, которые будут совместно способствовать развитию технологий искусственного интеллекта. Приобретение и использование модели требует определенного технического порога, но это не мешает ее вкладу в исследования искусственного интеллекта.