Маленький, но могучий! Команда из 10 человек построила первую доработанную Llama 3.1 405B.

Автор：Eve Cole Время обновления：2024-12-22 08:32:01

В области искусственного интеллекта существует много гигантов и конкуренция жесткая. Однако Nous Research, начинающая компания, состоящая всего из 10 человек, успешно бросила вызов авторитету технологических гигантов благодаря своей сильной технической мощи и концепции открытого исходного кода. Их недавно выпущенная модель Hermes3 точно настроена на основе Llama 3.1, имеет размер параметра 405B и потрясающую производительность. Ее загрузили более 33 миллионов раз, что делает ее феноменальным продуктом в индустрии искусственного интеллекта. В этой статье мы рассмотрим превосходные характеристики модели Hermes3, эффективные методы обучения и новаторский дух Nous Research.

Небольшая команда всего из 10 человек осмелилась бросить вызов статусу технологического гиганта Меты. Это просто реальная версия победы Давида над Голиафом!

Этот стартап под названием Nous Research — не кто-то неизвестный. Hermes3, который они только что выпустили, доработан на основе модели 405B Llama3.1. Хоть в команде и небольшое количество человек, их силу нельзя недооценивать. Эта команда из десяти человек успешно доработала несколько моделей, таких как Mistral, Yi, Llama и т. д., и ее загрузили более 33 миллионов раз. Это просто популярная машина в индустрии искусственного интеллекта!

Появление Hermes3 — это выстрел в руку в мире ИИ. Даже после квантования FP8 его производительность остается ошеломляюще высокой. Эта оптимизация не только значительно снижает требования к видеопамяти и диску модели, но также позволяет Hermes3 работать на одном узле, что является отличной новостью для разработчиков!

С точки зрения разговорных способностей, Hermes3 просто универсал. Будь то долговременная память, несколько раундов диалога, ролевая игра или внутренний монолог, он с легкостью справится с этим. Благодаря контекстному окну Llama3.1 размером 128 КБ Hermes3 является опытным дипломатом, умеющим поддерживать связность разговоров.

Но возможности Hermes3 на этом не заканчиваются. Он демонстрирует набор расширенных возможностей, выходящих за рамки традиционного языкового моделирования, позволяющих понимать и оценивать качество сгенерированного текста сложным и детальным способом. Это значит, что он может быть не только красноречивым оратором, но и строгим текстологом!

Что еще более удивительно, так это то, что Hermes3 также объединяет несколько возможностей агента, включая структурированный вывод, вывод промежуточных шагов и генерацию внутренних монологов для достижения прозрачного принятия решений. Это похоже на оснащение ИИ прозрачным мозгом, позволяющим нам заглянуть в его мыслительный процесс.

Процесс обучения Hermes3 можно назвать дьявольским обучением в мире ИИ. Он прошел два этапа: контролируемую тонкую настройку (SFT) и прямую оптимизацию предпочтений (DPO). Команда потратила целых 5 месяцев на проверку и создание набора данных SFT, и их преданность делу и терпение просто впечатляют.

Nous Research, частная прикладная исследовательская группа, основанная в 2023 году со штаб-квартирой в Нью-Йорке, — просто варвар-захватчик в мире искусственного интеллекта. Они твердо верят в силу открытого исходного кода и обещают бросить вызов инновационным ограничениям закрытых технологий. Слоган компании раскален: мы бросаем вызов предположению, что закрытые технологии всегда будут занимать вершину инноваций, и вместо этого предоставляем мощный открытый исходный код.

Всего за год Nous Research опубликовала 5 наборов данных и 89 моделей. Столь высокий результат словно заявляет миру: размер не имеет значения, сила превыше всего!

Адрес статьи: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf.

Официальное введение: https://nousresearch.com/freedom-at-the-frontier-hermes-3/

Успех Nous Research и Hermes3 не только доказывает силу открытого исходного кода, но и привносит новую жизнь и возможности в область искусственного интеллекта. Небольшие команды также могут творить чудеса, что, несомненно, является большим стимулом для всех специалистов по искусственному интеллекту. В будущем давайте подождем и посмотрим, какие еще удивительные результаты принесет Nous Research.