Мистраль Большой 2 | Мистраль ИИ | 123Б | Mistral-Large — это продвинутая плотная модель большого языка (LLM) со 123 миллиардами параметров с современными возможностями рассуждения, знаний и кодирования. Он имеет контекстное окно размером 128 тыс. | Блог Обнимающее лицо |
Лама 3.1 | Мета ИИ | 8Б, 70Б, 405Б | Семейство многоязычных моделей большого языка (LLM) Meta Llama 3.1 представляет собой набор предварительно обученных и настроенных генеративных моделей размером 8B, 70B и 405B. Модели Llama 3.1, настроенные только на текст, оптимизированы для случаев использования многоязычного диалога и превосходят многие доступные модели с открытым исходным кодом и закрытым чатом по общим отраслевым тестам. Эти модели представляют собой авторегрессионные языковые модели, в которых используется оптимизированная архитектура преобразователя. В настроенных версиях используется контролируемая точная настройка (SFT) и обучение с подкреплением с обратной связью с человеком (RLHF), чтобы соответствовать предпочтениям человека в отношении полезности и безопасности. | Блог Обнимающее лицо |
Мистраль Немо | Нвидиа Мистраль ИИ | 12Б | Большая языковая модель Mistral-Nemo — это предварительно обученная генеративная текстовая модель с 12B параметрами, обученная совместно Mistral AI и NVIDIA. Она значительно превосходит существующие модели меньшего или аналогичного размера. | Блог Обнимающее лицо |
Немотрон 4 | Нвидиа | 340Б | Базовая модель Nemotron 4 была предварительно обучена на корпусе из 9 триллионов токенов, состоящем из разнообразного набора текстов на английском языке, более чем 50 естественных языков и более чем 40 языков кодирования. | Обнимающее лицо |
ДЦЛМ | Яблоко | 7Б | DCLM — это языковая модель Transformer, предназначенная только для декодера. Его длина контекста составляет 2048 токенов. Он обучен на токенах 2,5T. Он не подвергался специальной настройке или настройке безопасности, поэтому выходные данные следует использовать с осторожностью. | Обнимающее лицо |
Джемма 2 | Google | 9Б 27Б | Gemma 2 — это большие языковые модели преобразования текста в текст, предназначенные только для декодера, доступные на английском языке, с открытыми весами как для предварительно обученных вариантов, так и для вариантов, настроенных с помощью инструкций. Модели Gemma хорошо подходят для различных задач по созданию текста, включая ответы на вопросы, обобщение и рассуждения. | Обнимающее лицо |
Хамелеон | Мета ИИ | 7Б 30Б | Хамелеон — это смешанная модель фундамента раннего слияния от FAIR. Доступен в двух размерах: 7B и 30B. | Обнимающее лицо Github |
Мистраль 7Б v3 | Мистраль ИИ | 7Б | Модель большого языка (LLM) Мистраль-7Б-v0.3 представляет собой Мистраль-7Б-v0.2 с расширенным словарным запасом. | Обнимающее лицо Github |
Арктика (Dense-MoE) | Снежинка | 480B Активный 17B | Arctic — это гибридная архитектура трансформатора с плотным MoE, предварительно обученная с нуля. Арктика сочетает в себе модель плотного трансформатора 10B с остаточным 128x3,66B MoE MLP re. Модель большого языка Mistral-7B-v0.3 (LLM) представляет собой Mistral-7B-v0.2 с расширенным словарным запасом. В результате всего 480B и 17B активных параметров. выбрано с использованием строба топ-2. | Блог HuggingFace на Github |
Лама 3 | Мета ИИ | 8Б 70Б | Llama 3 — это семейство больших языковых моделей, коллекция предварительно обученных и настроенных генеративных текстовых моделей размером 8 и 70B. Это авторегрессионная языковая модель, использующая архитектуру оптимизированного преобразователя. В настроенных версиях используются контролируемая точная настройка (SFT) и обучение с подкреплением с обратной связью от человека (RLHF). | Блог HuggingFace на Github |
Фи 3 Видение | Майкрософт | | Phi3-3-Vision — это легкая, современная открытая мультимодальная модель, построенная на наборах данных, которые включают в себя — синтетические данные и отфильтрованные общедоступные веб-сайты — с упором на очень высококачественные, аргументированные и плотные данные как в текстовом, так и в визуальном виде. . Длина контекста составляет 128 КБ. | Обнимающее лицо |
Фи 3 | Майкрософт | 3,8Б 7Б 14Б | Фи-3 — это коллекция моделей. Доступны различные размеры: Phi3-мини, Phi3-маленький, Phi3-средний. Это легкая, современная открытая модель, обученная с использованием наборов данных Phi-3. Этот набор данных включает в себя как синтетические данные, так и общедоступные данные веб-сайтов, с упором на высококачественные и обоснованные свойства. Модели Phi-3 являются наиболее функциональными и экономически эффективными моделями малых языков (SLM). | Блог HuggingFace |
OpenELM | Яблоко | 270М 450М 1.1Б 3Б | OpenELM, семейство эффективных языковых моделей с открытым исходным кодом. OpenELM использует стратегию послойного масштабирования для эффективного распределения параметров внутри каждого уровня модели трансформатора, что приводит к повышению точности. Обучение проводилось на RefinedWeb, дедуплицированном PILE, подмножестве RedPajama и подмножестве Dolma v1.6, всего около 1,8 триллиона токенов. Выпущены как предварительно обученные, так и настроенные по инструкциям модели с параметрами 270M, 450M, 1.1B и 3B. | HuggingFace OpenELM HuggingFace OpenELM-Инструкция |
Deepseek V2 (МО) | глубокий поиск | 236Б Активный 21Б | DeepSeek-V2 — это мощная языковая модель Mixture-of-Experts (MoE), характеризующаяся экономичным обучением и эффективным выводом. Всего он содержит 236 миллиардов параметров, из которых 21 миллиард активируется для каждого токена. По сравнению с DeepSeek 67B, DeepSeek-V2 обеспечивает более высокую производительность и при этом экономит 42,5%. | Обнимающее лицо Github |
Микстрал 8х22Б (МО) | Мистраль ИИ | 176B Активный 40B | Модель большого языка Mixtral-8x22B (LLM) представляет собой предварительно обученную генеративную разреженную смесь экспертов. Его длина составляет 65 000 токенов. | Блог HuggingFace |
Command-R+ | Согласовать | 104Б | C4AI Command R+ — это открытая версия для исследования весов модели со 104 миллиардами параметров с расширенными возможностями, включая поисковую расширенную генерацию (RAG) и использование инструментов для автоматизации сложных задач. Command R+ оптимизирован для различных случаев использования, включая рассуждения, обобщение и ответы на вопросы. | Обнимающее лицо |
Джамба (МО) | лаборатории AI21 | 52В активный 12В | Jamba — это современный гибридный LLM-трансформер SSM. Он обеспечивает прирост пропускной способности по сравнению с традиционными моделями на базе трансформатора. Это предварительно обученная генеративная текстовая модель смешанных экспертов (MoE) с 12 миллиардами активных параметров и в общей сложности 52 миллиардами параметров для всех экспертов. Он поддерживает длину контекста 256 КБ и может разместить до 140 000 токенов на одном графическом процессоре емкостью 80 ГБ. | Блог HuggingFace |
DBRX (МО) | Блоки данных | 132Б Активный 36Б | DBRX — это модель большого языка (LLM), основанная только на декодере, которая была обучена с использованием прогнозирования следующего токена. Он использует детальную архитектуру смешанных экспертов (MoE) с общим числом параметров 132B, из которых 36B параметров активны на любом входе. Он был предварительно обучен на 12Т токенах текстовых и кодовых данных. По сравнению с другими открытыми моделями MoE, такими как Mixtral-8x7B и Grok-1, DBRX является более детальным, то есть использует большее количество более мелких экспертов. DBRX имеет 16 экспертов и выбирает 4, в то время как Mixtral-8x7B и Grok-1 имеют 8 экспертов и выбирают 2. Это обеспечивает в 65 раз больше возможных комбинаций экспертов, что улучшает качество модели. | Блог HuggingFace на Github |
Грок 1.0 (МО) | xAI | 314Б | Grok 1.0 использует смесь из 8 экспертов (MoE). Grok 1.0 не настроен для конкретных приложений, таких как диалог, но демонстрирует более высокую производительность по сравнению с другими моделями, такими как GPT-3.5 и Llama 2. Он больше, чем GPT-3/3.5. | Github ОбнимающееЛицо |
Джемма | Google | 2Б 7Б | Gemma — это семейство легких современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались при создании моделей Gemini. Это большие языковые модели для преобразования текста в текст, предназначенные только для декодера, доступные на английском языке, с открытыми весами, предварительно обученными вариантами и вариантами, настроенными с помощью инструкций. Модели Gemma хорошо подходят для различных задач по созданию текста, включая ответы на вопросы, обобщение и рассуждения. | HuggingFace Блог Kaggle на Github |
Повторяющаяся Джемма | Google | 2Б | RecurrentGemma — это семейство моделей открытого языка, построенных на новой рекуррентной архитектуре. Как и Gemma, модели RecurrentGemma хорошо подходят для различных задач по созданию текста, включая ответы на вопросы, обобщение и рассуждения. Благодаря своей новой архитектуре RecurrentGemma требует меньше памяти, чем Gemma, и обеспечивает более быстрый вывод при создании длинных последовательностей. | ОбниматьЛицо Kaggle |
Микстрал 8х7Б (МО) | Мистраль ИИ | 45B Активный 12B | Модель большого языка Mixtral-8x7B (LLM) представляет собой предварительно обученную генеративную разреженную смесь экспертов. Mixtral-8x7B превосходит Llama 2 70B по большинству тестов. | HuggingFace Блог Kaggle |
Qwen1.5-МО (МО) | Алибаба | 14,3B Активный 2,7B | Qwen1.5-MoE — это языковая модель MoE, основанная только на преобразователе и предназначенная только для декодера, предварительно обученная на большом объеме данных. Он использует архитектуру Mixture of Experts (MoE), в которой модели создаются из моделей с плотным языком. Всего он имеет 14,3 млрд параметров и 2,7 млрд активированных параметров во время выполнения, обеспечивая производительность, сравнимую с Qwen1.5-7B, но требует всего 25% ресурсов обучения. | ОбниматьЛицо |
Мистраль 7Б v2 | Мистраль ИИ | 7Б | Mistral 7B v2 имеет следующие изменения по сравнению с Mistral 7B: - контекстное окно 32 тыс. (по сравнению с контекстом 8 тыс. в версии 0.1), Rope-theta = 1e6, отсутствие внимания к скользящему окну. | Обнимающее лицо Github |
Мистраль 7Б | Мистраль ИИ | 7Б | Модель большого языка (LLM) Mistral-7B-v0.1 представляет собой предварительно обученную генеративную текстовую модель с 7 миллиардами параметров. Мистраль-7Б-v0.1 превосходит Llama 2 13B по большинству тестов. | Github HuggingFace Блог Kaggle |
Лама 2 | Мета ИИ | 7Б 13Б 70Б | Llama 2 — это набор предварительно обученных и точно настроенных генеративных текстовых моделей масштаба от 7 до 70 миллиардов параметров. Это авторегрессионная языковая модель, использующая оптимизированную архитектуру преобразователя. В настроенных версиях используется контролируемая точная настройка (SFT) и обучение с подкреплением с обратной связью с человеком (RLHF), чтобы соответствовать предпочтениям человека в отношении полезности и безопасности. | HuggingFace Блог Kaggle на Github |
Долли v2 | Блоки данных | 3Б 7Б 12Б | Dolly v2 — это модель причинно-следственного языка, созданная Databricks на основе Pythia-12b от EleutherAI и настроенная на корпус инструкций записи размером около 15 000. | HuggingFace Dolly3B HuggingFace Dolly7B HuggingFace Dolly12B Kaggle Github |
Command-R | Согласовать | 35Б | Command-R — это исследовательская версия высокопроизводительной генеративной модели с 35 миллиардами параметров. Command-R — это большая языковая модель с открытыми весами, оптимизированная для различных случаев использования, включая рассуждения, обобщение и ответы на вопросы. Command-R имеет возможность многоязычной генерации, оцениваемой на 10 языках, и высокопроизводительные возможности RAG. | ОбниматьЛицо Kaggle |
Квен1.5 | Алибаба | 0,5Б 1,8Б 4Б 7Б 14Б 32Б 72Б | Qwen1.5 — это языковая модель только для декодера на основе преобразователя, предварительно обученная на большом объеме данных. Он основан на архитектуре Transformer с активацией SwiGLU, смещением внимания QKV, вниманием к групповым запросам, сочетанием внимания со скользящим окном и полного внимания и т. д. | ОбнимающееЛицо Github |
Викунья v1.5 | Лизмы | 7Б 13Б | Vicuna v1.5 является точной настройкой из Llama 2 с контролируемой тонкой настройкой инструкций. Данные обучения составляют около 125 тысяч разговоров, собранных с ShareGPT.com. Основное использование Vicuna — исследования больших языковых моделей и чат-ботов. | Обнимаю Лицо Викуньи7B Обнимаю Лицо Викуньи13B |
Фи 2 | Майкрософт | 2,7Б | Фи-2 — Трансформер с 2,7 миллиардами параметров. Он был обучен с использованием тех же источников данных, что и Phi-1.5, дополненных новым источником данных, состоящим из различных синтетических текстов НЛП и отфильтрованных веб-сайтов. При сравнении с тестами, проверяющими здравый смысл, понимание языка и логическое мышление, Phi-2 продемонстрировал почти современную производительность среди моделей с менее чем 13 миллиардами параметров. | HuggingFace Блог Kaggle |
Орка 2 | Майкрософт | 7Б 13Б | Orca 2 создан только для исследовательских целей и обеспечивает одноразовый ответ на такие задачи, как анализ данных, предоставленных пользователем, понимание прочитанного, решение математических задач и обобщение текста. Модель разработана, чтобы преуспеть, в частности, в рассуждениях. Модель не оптимизирована для чата и не обучалась с помощью RLHF или DPO. | Блог HuggingFace |
Смауг | Абакус ИИ | 34Б 72Б | Смауг создан с использованием новой методики тонкой настройки DPO-Positive (DPOP) и новых версий парных предпочтений ARC, HellaSwag и MetaMath (а также других существующих наборов данных). | ОбниматьЛицо |
МПТ | Мозаикаml | 1Б 7Б 30Б | MPT — это преобразователь в стиле декодера, предварительно обученный с нуля на токенах 1T английского текста и кода. В этих моделях используется модифицированная архитектура преобразователя, оптимизированная для эффективного обучения и вывода. Эти архитектурные изменения включают в себя реализацию уровней с оптимизацией производительности и устранение ограничений длины контекста путем замены позиционных вложений на «Внимание с линейными смещениями» (ALiBi). | HuggingFace Kaggle Github |
Сокол | ТЛЛ | 7Б 40Б 180Б | Falcon — это модель причинного декодера параметров 7B/40B/180B, созданная TII и обученная на 1000B/1500B/3500B токенах RefinedWeb, дополненная тщательно подобранными корпусами. | ОбниматьЛицо |
Ялм | Яндекс | 100Б | YaLM 100B — это GPT-подобная нейронная сеть для генерации и обработки текста. Он обучается на кластере из 800 видеокарт A100 в течение 65 дней. Он предназначен для генерации и обработки текста. | ОбнимающееЛицо Github |
ДециЛМ | ДециАИ | 6Б 7Б | DeciLM — это модель генерации текста только для декодера. Благодаря поддержке длины последовательности токенов 8 КБ эта высокоэффективная модель использует переменное внимание к групповым запросам (GQA) для достижения превосходного баланса между точностью и эффективностью вычислений. | ОбниматьЛицо |
БЕРТ | Google | от 110 м до 350 м. | BERT — это модель преобразователя, предварительно обученная на большом массиве данных на английском языке с самоконтролем. Это означает, что он был предварительно обучен только на необработанных текстах, и никто из людей не помечал их каким-либо образом с помощью автоматического процесса генерации входных данных и меток из этих текстов. | HuggingFace Kaggle GitHub |
Олмо | АлленАИ | 1Б 7Б | OLMo — это серия открытых языковых моделей, предназначенная для изучения языковых моделей. Модели OLMo обучаются на наборе данных Dolma. | ОбнимающееЛицо Github |
Опенчат3.5 | Открытый чат | 7Б | Openchat2.5 — самый эффективный LLM 7B. | ОбнимающееЛицо Github |
Цвести | БольшаяНаука | 176Б | BLOOM — это авторегрессионная модель большого языка (LLM), обученная продолжать текст из подсказки на огромных объемах текстовых данных с использованием вычислительных ресурсов промышленного масштаба. | ОбниматьЛицо |
Гермес 2 Про Мистраль | Ноус Исследования | 7Б | Hermes 2 Pro на Mistral 7B — это новый флагман 7B Hermes. Hermes 2 Pro — это обновленная, переобученная версия Nous Hermes 2, состоящая из обновленной и очищенной версии набора данных OpenHermes 2.5, а также недавно представленного набора данных для вызова функций и режима JSON, разработанного собственными силами. Эта новая версия Hermes сохраняет отличные возможности выполнения общих задач и общения, но также превосходно справляется с вызовом функций и структурированным выводом JSON. | ОбниматьЛицо |
Гермес 2 Микстрал 7x8B (МО) | Ноус Исследования | Актив 12Б | Nous Hermes 2 Mixtral 8x7B DPO — это новая флагманская модель Nous Research, обученная на Mixtral 8x7B MoE LLM. Модель была обучена на более чем 1 000 000 записей, в основном данных, сгенерированных GPT-4, а также других высококачественных данных из открытых наборов данных в среде ИИ, что позволило достичь высочайшего уровня производительности при выполнении различных задач. Это версия Mixtral Hermes 2 SFT + DPO. | ОбниматьЛицо |
Мерлинит | ИБМ | 7Б | Merlinite-7b — это модель, производная от Mistral-7b, обученная по методологии LAB с использованием Mixtral-8x7b-Instruct в качестве модели учителя. | ОбниматьЛицо |
Лабрадорит | ИБМ | 13Б | Лабрадорит-13b — это модель, производная от LLaMA-2-13b, обученная по методологии LAB с использованием Mixtral-8x7b-Instruct в качестве модели учителя. | ОбниматьЛицо |
Xgen | Salesforce | 7Б | Xgen — это модель большого языка с длиной контекста 8 КБ, 4 КБ и оптимизированная для задач с длинной последовательностью. | ОбнимающееЛицо Github |
Солнечная | За кулисами | 10,7Б | SOLAR-10.7B, усовершенствованная модель большого языка (LLM) с 10,7 миллиардами параметров, демонстрирующая превосходную производительность в различных задачах обработки естественного языка (NLP). Он компактен, но при этом невероятно мощный и демонстрирует непревзойденную современную производительность в моделях с параметрами ниже 30В. | ОбниматьЛицо |
GPT-Неокс | Элеутер ИИ | 20Б | GPT-NeoX-20B — это авторегрессионная языковая модель с 20 миллиардами параметров, обученная на Pile с использованием библиотеки GPT-NeoX. Его архитектура намеренно напоминает GPT-3 и практически идентична GPT-J-6B. | ОбъятияFace GitHub |
Флан-Т5 | Google | от 80М до 11Б | FLAN-T5 является модифицированной версией T5 и имеет такое же количество параметров. Эти модели были настроены для более чем 1000 дополнительных задач, охватывающих также больше языков. Различные размеры:- флан-т5-маленький, флан-т5-базовый, флан-т5-большой, флан-т5-xxl. | ОбниматьЛицо Kaggle |
ОПТ | Мета ИИ | от 125М до 175Б | OPT — это предварительно обученные преобразователи только для декодеров с параметрами от 125M до 175B. В основном он был предварительно обучен с текстом на английском языке, но небольшое количество данных не на английском языке все еще присутствует в обучающем корпусе через CommonCrawl. | ОбниматьЛицо |
Стабильный ЛМ 2 | Стабильность ИИ | 1,6Б 12Б | Стабильные LM 2 — это языковые модели, предназначенные только для декодеров, предварительно обученные на 2 триллионах токенов различных многоязычных и кодовых наборов данных для двух эпох. | ОбниматьЛицо |
Стабильный ЛМ Зефир | Стабильность ИИ | 3Б | Модель StableLM Zephyr 3B — это авторегрессионная языковая модель, основанная на архитектуре преобразовательного декодера. StableLM Zephyr 3B — это 3 миллиарда параметров, которые были обучены на сочетании общедоступных наборов данных и синтетических наборов данных с использованием оптимизации прямых предпочтений (DPO). | ОбниматьЛицо |
Ая | Согласовать | 13Б | Модель Aya представляет собой авторегрессионную модель трансформерного многоязычного генеративного языка, которая следует инструкциям на 101 языке. Он имеет ту же архитектуру, что и mt5-xxl. | HuggingFace Блог Kaggle |
Немотрон 3 | Нвидиа | 8Б | Nemotron-3 — это большие модели языковой основы, позволяющие предприятиям создавать собственные LLM. Эта базовая модель имеет 8 миллиардов параметров и поддерживает длину контекста 4096 токенов. Nemotron-3 — это семейство готовых к использованию генеративных текстовых моделей корпоративного уровня, совместимых с NVIDIA NeMo Framework. | ОбниматьЛицо |
Нейронный чат v3 | Интел | 7Б | Neural Chat — это тонко настроенный LLM с 7B параметрами на процессоре Intel Gaudi 2 из mistralai/Mistral-7B-v0.1 в наборе данных с открытым исходным кодом Open-Orca/SlimOrca. Модель была согласована с использованием метода прямой оптимизации производительности (DPO). | ОбниматьЛицо |
Йи | 01 ИИ | 6Б 9Б 34Б | Модели серии Yi представляют собой следующее поколение моделей большого языка с открытым исходным кодом. Они ориентированы на двуязычную языковую модель и обучены на многоязычном корпусе 3T, демонстрируя многообещающие навыки понимания языка, здравого смысла, понимания прочитанного и многого другого. | ОбнимаюЛицо Github |
Старлинг ЛМ | Нексусфлоу | 7Б | Starling LM, открытая модель большого языка (LLM), обученная с помощью Reinforcement Learning from AI Feedback (RLAIF). Starling LM обучена на Openchat-3.5-0106 с использованием нашей новой модели вознаграждения Starling-RM-34B и метода оптимизации политики «Точная настройка языковых моделей на основе человеческих предпочтений» (PPO). | ОбниматьЛицо |
НексусВорон v2 | Нексусфлоу | 13Б | NexusRaven — это коммерчески жизнеспособная функция вызова LLM с открытым исходным кодом, которая превосходит самые современные возможности вызова функций. NexusRaven-V2 способен генерировать глубоко вложенные вызовы функций, параллельные вызовы функций и простые одиночные вызовы. Это также может оправдать сгенерированные им вызовы функций. | ОбниматьЛицо |
ДипСик, LLM | Глубокий поиск ИИ | 7Б 67Б | DeepSeek LLM — это продвинутая языковая модель. Он был обучен с нуля на огромном наборе данных из 2 триллионов токенов на английском и китайском языках. | ОбнимающееЛицо Github |
Deepseek VL (Мультимодальный) | Глубокий поиск ИИ | 1,3Б 7Б | DeepSeek-VL, модель Vision-Language (VL) с открытым исходным кодом, разработанная для реальных приложений по зрению и пониманию языка. DeepSeek-VL обладает общими возможностями мультимодального понимания, способными обрабатывать логические диаграммы, веб-страницы, распознавание формул, научную литературу, естественные изображения и воплощенный интеллект в сложных сценариях. Это гибридный видеокодер, поддерживающий ввод изображений 1024 x 1024, созданный на основе базы DeepSeek-7b, которая обучена на приблизительном корпусе текстовых токенов 2T. | ОбнимающееЛицо Github |
Ллава 1.6 (Мультимодальный) | Ллава ХФ | 7Б 13Б 34Б | LLaVa сочетает в себе предварительно обученную модель большого языка с предварительно обученным визуальным кодировщиком для сценариев использования мультимодальных чат-ботов. Доступные модели:- Llava-v1.6-34b-hf, Llava-v1.6-Mistral-7b-hf, Llava-v1.6-Vicuna-7b-hf, Llava-v1.6-vicuna-13b-hf | Обнимающее лицо |
Йи ВЛ (Мультимодальный) | 01 ИИ | 6Б 34Б | Модель Yi-VL — это мультимодальная версия с открытым исходным кодом серии Yi Large Language Model (LLM), обеспечивающая понимание, распознавание контента и многоэтапное обсуждение изображений. | HuggingFace YiVL6B HuggingFace YiVL34B |