米斯特拉尔大 2 | 米斯特拉尔人工智能 | 123B | Mistral-Large 是一种先进的密集大型语言模型 (LLM),具有 123B 参数,具有最先进的推理、知识和编码功能。它有 128k 上下文窗口。 | 博客拥抱脸 |
骆驼3.1 | 元人工智能 | 8B、70B、405B | Meta Llama 3.1 系列多语言大语言模型 (LLM) 是一系列经过预训练和指令调整的 8B、70B 和 405B 大小的生成模型。 Llama 3.1 指令调整的纯文本模型针对多语言对话用例进行了优化,并且在常见行业基准上优于许多可用的开源和封闭式聊天模型。这些模型是使用优化的转换器架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来符合人类对有用性和安全性的偏好。 | 博客拥抱脸 |
米斯特拉尔尼莫 | Nvidia 米斯特拉尔人工智能 | 12B | Mistral-Nemo 大型语言模型是由 Mistral AI 和 NVIDIA 联合训练的 12B 参数的预训练生成文本模型,其性能显着优于较小或类似尺寸的现有模型。 | 博客拥抱脸 |
内动管4 | 英伟达 | 340B | Nemotron 4 基础模型在包含 9 万亿个标记的语料库上进行了预训练,其中包括各种基于英语的文本、50 多种自然语言和 40 多种编码语言。 | 抱脸 |
直流LM | 苹果 | 7B | DCLM 是仅解码器 Transformer 语言模型。它的上下文长度为 2,048 个标记。它是在 2.5T 代币上进行训练的。它没有经过具体的对准或安全微调,因此输出应谨慎使用。 | 抱脸 |
杰玛2号 | 谷歌 | 9B 27B | Gemma 2 是文本到文本、仅限解码器的大型语言模型,提供英语版本,并为预训练变体和指令调整变体提供开放权重。 Gemma 模型非常适合各种文本生成任务,包括问答、摘要和推理。 | 抱脸 |
变色龙 | 元人工智能 | 7B 30B | Chameleon 是 FAIR 的混合模式早期融合基础模型。有 2 种尺寸可供选择:7B 和 30B。 | 拥抱脸 Github |
米斯特拉尔 7B v3 | 米斯特拉尔人工智能 | 7B | Mistral-7B-v0.3 大型语言模型 (LLM) 是具有扩展词汇量的 Mistral-7B-v0.2。 | 拥抱脸 Github |
北极(密集-MoE) | 雪花 | 480B主动17B | Arctic 是一种从头开始预训练的密集 MoE 混合变压器架构。 Arctic 将 10B 密集变压器模型与剩余 128x3.66B MoE MLP reMistral-7B-v0.3 大语言模型 (LLM) 相结合,是具有扩展词汇量的 Mistral-7B-v0.2。总共产生 480B 参数和 17B 活动参数使用 top-2 门控进行选择。 | HuggingFace Github 博客 |
骆驼3 | 元人工智能 | 8B 70B | Llama 3 是一个大型语言模型家族,是一组经过预训练和指令调整的 8 和 70B 大小的生成文本模型。它是一种使用优化变压器架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)。 | HuggingFace 博客 Github |
Phi 3 愿景 | 微软 | | Phi3-3-Vision 是一个轻量级、最先进的开放多模态模型,基于数据集构建,其中包括合成数据和经过过滤的公开可用网站,重点关注文本和视觉方面的高质量推理密集数据。它的上下文长度为 128k。 | 抱脸 |
Φ3 | 微软 | 3.8B 7B 14B | Phi-3 是模型的集合。有多种尺寸可供选择:Phi3-迷你、Phi3-小号、Phi3-中号。它是一个轻量级、最先进的开放模型,使用 Phi-3 数据集进行训练。该数据集包括合成数据和公开可用的网站数据,重点是高质量和推理密集属性。 Phi-3 模型是目前功能最强大、最具成本效益的小语言模型 (SLM), | 拥抱脸博客 |
开放ELM | 苹果 | 270M 450M 1.1B 3B | OpenELM,一系列开源高效语言模型。 OpenELM 使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性。在RefinedWeb、去重PILE、RedPajama的子集和Dolma v1.6的子集上进行训练,总计约1.8万亿个代币。发布了具有 270M、450M、1.1B 和 3B 参数的预训练和指令调整模型。 | HuggingFace OpenELM HuggingFace OpenELM-指令 |
Deepseek V2(教育部) | 深度搜索 | 236B 主动 21B | DeepSeek-V2 是一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它总共包含 236B 个参数,其中每个令牌激活 21B 个参数。与DeepSeek 67B相比,DeepSeek-V2实现了更强的性能,同时节省了42.5%。 | 拥抱脸 Github |
混合 8x22B (教育部) | 米斯特拉尔人工智能 | 176B 主动 40B | Mixtral-8x22B 大型语言模型 (LLM) 是一种预训练的生成式稀疏专家混合模型。它的内容长度为 65,000 个令牌。 | 拥抱脸博客 |
Command-R+ | 连贯性 | 104B | C4AI Command R+ 是一个 104B 十亿参数模型的开放权重研究版本,具有高度先进的功能,其中包括检索增强生成 (RAG) 和用于自动执行复杂任务的工具。 Command R+ 针对各种用例进行了优化,包括推理、总结和问答。 | 抱脸 |
詹巴 (教育部) | AI21实验室 | 52B 主动 12B | Jamba 是最先进的混合 SSM-Transformer 法学硕士。与传统的基于 Transformer 的模型相比,它提供了吞吐量增益。它是一个预训练的混合专家 (MoE) 生成文本模型,具有 12B 个活动参数和所有专家的总共 52B 个参数。它支持 256K 上下文长度,并且可以在单个 80GB GPU 上容纳多达 140K 令牌。 | 拥抱脸博客 |
DBRX(教育部) | 数据块 | 132B 主动 36B | DBRX 是一种基于 Transformer 的仅解码器大语言模型 (LLM),使用下一个令牌预测进行训练。它使用细粒度的专家混合 (MoE) 架构,共有 132B 个参数,其中 36B 个参数在任何输入上都处于活动状态。它是在 12T 文本和代码数据标记上进行预训练的。与 Mixtral-8x7B 和 Grok-1 等其他开放 MoE 模型相比,DBRX 是细粒度的,这意味着它使用了更多数量的小型专家。 DBRX 有 16 位专家,选择 4 位,而 Mixtral-8x7B 和 Grok-1 有 8 位专家,选择 2 位。这提供了 65 倍可能的专家组合,从而提高了模型质量。 | HuggingFace Github 博客 |
Grok 1.0(教育部) | 人工智能 | 314B | Grok 1.0 使用 8 名专家混合 (MoE)。 Grok 1.0 并未针对对话等特定应用进行微调,但与 GPT-3.5 和 Llama 2 等其他模型相比,表现出了强大的性能。它比 GPT-3/3.5 更大。 | Github 拥抱脸 |
芽 | 谷歌 | 2B 7B | Gemma 是 Google 推出的一系列轻量级、最先进的开放模型,采用与创建 Gemini 模型相同的研究和技术构建。它们是文本到文本、仅限解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调整变体。 Gemma 模型非常适合各种文本生成任务,包括问答、摘要和推理。 | HuggingFace Kaggle Github 博客 |
复发性杰玛 | 谷歌 | 2B | RecurrentGemma 是一个基于新颖的循环架构的开放语言模型系列。与 Gemma 一样,RecurrentGemma 模型非常适合各种文本生成任务,包括问答、摘要和推理。由于其新颖的架构,RecurrentGemma 比 Gemma 需要更少的内存,并且在生成长序列时实现更快的推理。 | 拥抱脸 Kaggle |
混合 8x7B (教育部) | 米斯特拉尔人工智能 | 45B 主动 12B | Mixtral-8x7B 大型语言模型 (LLM) 是一种预训练的生成式稀疏专家混合模型。 Mixtral-8x7B 在大多数基准测试中都优于 Llama 2 70B。 | HuggingFace Kaggle 博客 |
Qwen1.5-MoE(教育部) | 阿里巴巴 | 14.3B 主动 2.7B | Qwen1.5-MoE 是一种基于 Transformer 的 MoE 仅解码器语言模型,在大量数据上进行了预训练。它采用专家混合 (MoE) 架构,其中模型是从密集语言模型升级而来的。它总共有14.3B个参数,运行时有2.7B个激活参数,在达到与Qwen1.5-7B相当的性能的同时,只需要25%的训练资源。 | 抱脸 |
米斯特拉尔 7B v2 | 米斯特拉尔人工智能 | 7B | 与 Mistral 7B 相比,Mistral 7B v2 有以下变化:- 32k 上下文窗口(v0.1 中为 8k 上下文),Rope-theta = 1e6,无滑动窗口注意。 | 拥抱脸 Github |
米斯特拉尔7B | 米斯特拉尔人工智能 | 7B | Mistral-7B-v0.1 大型语言模型 (LLM) 是一个预训练的生成文本模型,具有 70 亿个参数。 Mistral-7B-v0.1 在大多数基准测试中均优于 Llama 2 13B。 | Github HuggingFace Kaggle 博客 |
骆驼2 | 元人工智能 | 7B 13B 70B | Llama 2 是一组经过预训练和微调的生成文本模型,参数规模从 70 亿到 700 亿不等。它是一种使用优化的转换器架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来适应人类对有用性和安全性的偏好。 | HuggingFace Kaggle Github 博客 |
多莉 v2 | 数据块 | 3B 7B 12B | Dolly v2 是 Databricks 创建的因果语言模型,源自 EleutherAI 的 Pythia-12b,并在约 15K 记录指令语料库上进行了微调。 | HuggingFace Dolly3B HuggingFace Dolly7B HuggingFace Dolly12B Kaggle Github |
Command-R | 连贯性 | 35B | Command-R 是 350 亿个参数的高性能生成模型的研究版本。 Command-R 是一种大型语言模型,具有开放权重,针对推理、摘要和问答等各种用例进行了优化。 Command-R 具有以 10 种语言评估的多语言生成功能和高性能 RAG 功能。 | 拥抱脸 Kaggle |
Qwen1.5 | 阿里巴巴 | 0.5B 1.8B 4B 7B 14B 32B 72B | Qwen1.5 是一个基于 Transformer 的仅解码器语言模型,在大量数据上进行了预训练。它基于 Transformer 架构,具有 SwiGLU 激活、注意力 QKV 偏差、组查询注意力、滑动窗口注意力和全注意力的混合等。 | HuggingFace Github |
骆驼毛 v1.5 | 莱姆斯 | 7B 13B | Vicuna v1.5 是在 Llama 2 的基础上进行了监督指令微调的微调。训练数据是从 ShareGPT.com 收集的大约 125K 个对话。 Vicuna 的主要用途是研究大型语言模型和聊天机器人。 | HuggingFace 骆驼毛7B HuggingFace 骆驼毛13B |
Φ2 | 微软 | 2.7B | Phi-2 是一个拥有 27 亿个参数的 Transformer。它使用与 Phi-1.5 相同的数据源进行训练,并使用由各种 NLP 合成文本和过滤网站组成的新数据源进行了增强。当根据测试常识、语言理解和逻辑推理的基准进行评估时,Phi-2 在参数少于 130 亿的模型中展示了近乎最先进的性能。 | HuggingFace Kaggle 博客 |
虎鲸2号 | 微软 | 7B 13B | Orca 2 仅用于研究目的,并在用户给定数据推理、阅读理解、数学问题解决和文本摘要等任务中提供单轮响应。该模型旨在特别擅长推理。该模型未针对聊天进行优化,也未使用 RLHF 或 DPO 进行训练。 | 拥抱脸博客 |
史矛革 | 算盘人工智能 | 34B 72B | Smaug 是使用新的微调技术 DPO-Positive (DPOP) 以及 ARC、HellaSwag 和 MetaMath(以及其他现有数据集)的新成对偏好版本创建的。 | 抱脸 |
MPT | 马赛克 | 1B 7B 30B | MPT 是一种解码器式转换器,在 1T 英语文本和代码标记上从头开始进行预训练。这些模型使用经过修改的变压器架构,针对高效训练和推理进行了优化。这些架构变化包括性能优化的层实现,以及通过用线性偏差注意力机制 (ALiBi) 替换位置嵌入来消除上下文长度限制。 | HuggingFace Kaggle Github |
鹘 | TLL | 7B 40B 180B | Falcon 是由 TII 构建的 7B/40B/180B 参数因果解码器模型,并在使用精选语料库增强的 RefinedWeb 的 1,000B/1,500B/3,500B 令牌上进行训练。 | 抱脸 |
亚尔姆 | 扬德克斯 | 100B | YaLM 100B 是一个类似 GPT 的神经网络,用于生成和处理文本。它在 800 个 A100 显卡集群上进行了 65 天的训练。它专为文本生成和处理而设计。 | HuggingFace Github |
德西LM | 德西人工智能 | 6B 7B | DeciLM 是仅解码器的文本生成模型。该高效模型支持 8K 令牌序列长度,使用可变分组查询注意力 (GQA) 来实现准确性和计算效率之间的卓越平衡。 | 抱脸 |
伯特 | 谷歌 | 110M至350M | BERT 是一个 Transformer 模型,以自我监督的方式在大型英语数据语料库上进行预训练。这意味着它仅对原始文本进行了预训练,没有人通过自动过程从这些文本生成输入和标签来以任何方式标记它们。 | HuggingFace Kaggle GitHub |
奥尔莫 | 艾伦人工智能 | 1B 7B | OLMo 是一系列开放语言模型,旨在实现语言模型的科学。 OLMo 模型在 Dolma 数据集上进行训练。 | 拥抱脸 Github |
Openchat3.5 | 开放聊天 | 7B | Openchat2.5是表现最好的7B LLM。 | 拥抱脸 Github |
盛开 | 大科学 | 176B | BLOOM 是一种自回归大型语言模型 (LLM),经过训练,可以使用工业规模的计算资源根据大量文本数据的提示继续文本。 | 抱脸 |
Hermes 2 Pro 米斯特拉尔 | 诺斯研究 | 7B | Mistral 7B 上的 Hermes 2 Pro 是新旗舰 7B Hermes。 Hermes 2 Pro 是 Nous Hermes 2 的升级版、重新训练版,由 OpenHermes 2.5 数据集的更新和清理版本以及新引入的内部开发的函数调用和 JSON 模式数据集组成。新版本的 Hermes 保持了其出色的一般任务和对话功能 - 但也擅长函数调用、JSON 结构化输出。 | 抱脸 |
Hermes 2 Mixtral 7x8B (教育部) | 诺斯研究 | 主动12B | Nous Hermes 2 Mixtral 8x7B DPO 是经过 Mixtral 8x7B MoE LLM 训练的新旗舰 Nous Research 模型。该模型接受了超过 1,000,000 个主要由 GPT-4 生成的数据条目以及来自整个 AI 领域开放数据集的其他高质量数据的训练,在各种任务上实现了最先进的性能。这是 Mixtral Hermes 2 的 SFT + DPO 版本。 | 抱脸 |
默林石 | 国际商业机器公司 | 7B | Merlinite-7b 是使用 LAB 方法训练的 Mistral-7b 衍生模型,使用 Mixtral-8x7b-Instruct 作为教师模型。 | 抱脸 |
拉长石 | 国际商业机器公司 | 13B | Labradorite-13b 是使用 LAB 方法训练的 LLaMA-2-13b 衍生模型,使用 Mixtral-8x7b-Instruct 作为教师模型。 | 抱脸 |
Xgen | 销售人员 | 7B | Xgen 是一种大型语言模型,上下文长度为 8K、4K,并针对长序列任务进行了优化。 | 拥抱脸 Github |
太阳的 | 后台 | 10.7B | SOLAR-10.7B是一种先进的大语言模型(LLM),拥有107亿个参数,在各种自然语言处理(NLP)任务中展示了卓越的性能。它结构紧凑,但功能非常强大,并在参数低于 30B 的模型中展示了无与伦比的最先进性能。 | 抱脸 |
GPT-Neox | 埃鲁瑟人工智能 | 20B | GPT-NeoX-20B 是一个使用 GPT-NeoX 库在 Pile 上训练的 200 亿参数自回归语言模型。其架构故意类似于 GPT-3,并且与 GPT-J-6B 几乎相同。 | 拥抱脸 GitHub |
果馅饼-T5 | 谷歌 | 80M转11B | FLAN-T5 是 T5 的修改版本,具有相同数量的参数,这些模型已针对 1000 多个附加任务进行了微调,涵盖了更多语言。各种尺寸:- flan-t5-小号、flan-t5-底座、flan-t5-大号、flan-t5-xxl | 拥抱脸 Kaggle |
选择 | 元人工智能 | 125M 转 175B | OPT 是仅解码器的预训练 Transformer,参数范围从 125M 到 175B。它主要是用英文文本进行预训练的,但通过 CommonCrawl 的训练语料库中仍然存在少量非英语数据。 | 抱脸 |
稳定的LM 2 | 稳定性人工智能 | 1.6B 12B | Stable LM 2 是仅解码器的语言模型,在两个时期的不同多语言和代码数据集的 2 万亿个标记上进行了预训练。 | 抱脸 |
稳定的 LM Zephyr | 稳定性人工智能 | 3B | StableLM Zephyr 3B 模型是基于 Transformer 解码器架构的自回归语言模型。 StableLM Zephyr 3B 是一个包含 30 亿个参数的参数,使用直接偏好优化 (DPO) 在公开数据集和合成数据集上进行训练。 | 抱脸 |
绫 | 连贯性 | 13B | Aya 模型是一种 Transformer 风格的自回归大规模多语言生成语言模型,遵循 101 种语言的指令。它具有与 mt5-xxl 相同的架构。 | HuggingFace Kaggle 博客 |
神经管3 | 英伟达 | 8B | Nemotron-3 是大型语言基础模型,供企业构建自定义法学硕士。该基础模型有 80 亿个参数,支持 4,096 个令牌的上下文长度。 Nemotron-3 是一系列企业级生成文本模型,与 NVIDIA NeMo 框架兼容。 | 抱脸 |
神经聊天 v3 | 英特尔 | 7B | Neural Chat 是 Intel Gaudi 2 处理器上经过微调的 7B 参数 LLM,来自开源数据集 Open-Orca/SlimOrca 上的 Mistralai/Mistral-7B-v0.1。该模型使用直接性能优化 (DPO) 方法进行调整。 | 抱脸 |
彝族 | 01 人工智能 | 6B 9B 34B | Yi系列模型是下一代开源大语言模型。它们的目标是双语语言模型,并在 3T 多语言语料库上进行训练,在语言理解、常识推理、阅读理解等方面表现出良好的前景。 | HuggingFace Github |
椋鸟LM | Nexusflow | 7B | Starling LM,一种由 AI 反馈强化学习 (RLAIF) 训练的开放式大语言模型 (LLM)。 Starling LM 使用我们的新奖励模型 Starling-RM-34B 和根据人类偏好微调语言模型 (PPO) 的策略优化方法从 Openchat-3.5-0106 进行训练。 | 抱脸 |
NexusRaven v2 | Nexusflow | 13B | NexusRaven 是一个开源且商业上可行的函数调用 LLM,超越了最先进的函数调用能力。 NexusRaven-V2 能够生成深度嵌套函数调用、并行函数调用和简单的单个调用。它还可以证明它生成的函数调用是合理的。 | 抱脸 |
深思法学硕士 | 深思人工智能 | 7B 67B | DeepSeek LLM 是一种高级语言模型。它是在包含 2 万亿个英文和中文标记的庞大数据集上从头开始训练的。 | HuggingFace Github |
Deepseek VL(多模式) | 深思人工智能 | 1.3B 7B | DeepSeek-VL,一种开源视觉语言 (VL) 模型,专为现实世界的视觉和语言理解应用而设计。 DeepSeek-VL具备通用的多模态理解能力,能够处理复杂场景下的逻辑图、网页、公式识别、科学文献、自然图像、体现智能等。它是一种支持 1024 x 1024 图像输入的混合视觉编码器,基于 DeepSeek-7b-base 构建,该库在 2T 文本标记的近似语料库上进行训练。 | HuggingFace Github |
Llava 1.6(多式联运) | 拉瓦高频 | 7B 13B 34B | LLaVa 将预训练的大型语言模型与预训练的视觉编码器相结合,用于多模式聊天机器人用例。可用型号:- Llava-v1.6-34b-hf、Llava-v1.6-Mistral-7b-hf、Llava-v1.6-Vicuna-7b-hf、Llava-v1.6-vicuna-13b-hf | 拥抱脸 拥抱脸 |
Yi VL(多式联运) | 01 人工智能 | 6B 34B | Yi-VL 模型是 Yi 大语言模型 (LLM) 系列的开源多模态版本,可实现图像的内容理解、识别和多轮对话。 | HuggingFace YiVL6B HuggingFace YiVL34B |