米斯特拉爾大 2 | 米斯特拉爾人工智慧 | 123B | Mistral-Large 是一種先進的密集大型語言模型 (LLM),具有 123B 參數,具有最先進的推理、知識和編碼功能。它有 128k 上下文視窗。 | 部落格擁抱臉 |
駱駝3.1 | 元人工智慧 | 8B、70B、405B | Meta Llama 3.1 系列多語言大語言模型 (LLM) 是一系列經過預先訓練和指令調整的 8B、70B 和 405B 大小的生成模型。 Llama 3.1 指令調整的純文字模型針對多語言對話用例進行了最佳化,並且在常見行業基準上優於許多可用的開源和封閉式聊天模型。這些模型是使用最佳化的轉換器架構的自回歸語言模型。調整後的版本使用監督微調(SFT)和具有人類回饋的強化學習(RLHF)來符合人類對有用性和安全性的偏好。 | 部落格擁抱臉 |
米斯特拉爾尼莫 | Nvidia 米斯特拉爾人工智慧 | 12B | Mistral-Nemo 大型語言模型是由 Mistral AI 和 NVIDIA 聯合訓練的 12B 參數的預訓練生成文本模型,其性能顯著優於較小或類似尺寸的現有模型。 | 部落格擁抱臉 |
內動管4 | 英偉達 | 340B | Nemotron 4 基礎模型在包含 9 兆個標記的語料庫上進行了預訓練,其中包括各種基於英語的文本、50 多種自然語言和 40 多種編碼語言。 | 抱臉 |
直流LM | 蘋果 | 7B | DCLM 是僅解碼器 Transformer 語言模型。它的上下文長度為 2,048 個標記。它是在 2.5T 代幣上進行訓練的。它沒有經過特定的對準或安全微調,因此輸出應謹慎使用。 | 抱臉 |
傑瑪2號 | Google | 9B 27B | Gemma 2 是文字到文字、僅限解碼器的大型語言模型,提供英文版本,並為預訓練變體和指令調整變體提供開放權重。 Gemma 模型非常適合各種文本生成任務,包括問答、摘要和推理。 | 抱臉 |
變色龍 | 元人工智慧 | 7B 30B | Chameleon 是 FAIR 的混合模式早期融合基礎模型。有 2 種尺寸可供選擇:7B 和 30B。 | 擁抱臉 Github |
米斯特拉爾 7B v3 | 米斯特拉爾人工智慧 | 7B | Mistral-7B-v0.3 大型語言模型 (LLM) 是具有擴展詞彙量的 Mistral-7B-v0.2。 | 擁抱臉 Github |
北極(密集-MoE) | 雪花 | 480B主動17B | Arctic 是一種從頭開始預先訓練的密集 MoE 混合變壓器架構。 Arctic 將10B 密集變壓器模型與剩餘128x3.66B MoE MLP reMistral-7B-v0.3 大語言模型(LLM) 相結合,是具有擴展詞彙量的Mistral-7B-v0.2。參數使用 top-2 閘控進行選擇。 | HuggingFace Github 博客 |
駱駝3 | 元人工智慧 | 8B 70B | Llama 3 是一個大型語言模型家族,是一組經過預先訓練和指令調整的 8 和 70B 大小的生成文字模型。它是一種使用最佳化變壓器架構的自回歸語言模型。調整後的版本使用監督微調(SFT)和具有人類回饋的強化學習(RLHF)。 | HuggingFace 部落格 Github |
Phi 3 願景 | 微軟 | | Phi3-3-Vision 是一個輕量級、最先進的開放多模態模型,基於數據集構建,其中包括合成數據和經過過濾的公開可用網站,重點關注文本和視覺方面的高品質推理密集數據。它的上下文長度為 128k。 | 抱臉 |
Φ3 | 微軟 | 3.8B 7B 14B | Phi-3 是模型的集合。有多種尺寸可供選擇:Phi3-迷你、Phi3-小號、Phi3-中號。它是一個輕量級、最先進的開放模型,使用 Phi-3 資料集進行訓練。該數據集包括合成數據和公開可用的網站數據,重點是高品質和推理密集屬性。 Phi-3 模型是目前功能最強大、最具成本效益的小語言模型 (SLM), | 抱抱臉博客 |
開放ELM | 蘋果 | 270M 450M 1.1B 3B | OpenELM,一系列開源高效語言模型。 OpenELM 使用分層縮放策略來有效地分配變壓器模型每一層內的參數,從而提高準確性。在RefinedWeb、去重PILE、RedPajama的子集和Dolma v1.6的子集上進行訓練,總計約1.8兆個代幣。發布了具有 270M、450M、1.1B 和 3B 參數的預訓練和指令調整模型。 | HuggingFace OpenELM HuggingFace OpenELM-指令 |
Deepseek V2(教育部) | 深度搜尋 | 236B 主動 21B | DeepSeek-V2 是一種強大的專家混合 (MoE) 語言模型,其特點是經濟的訓練和高效的推理。它總共包含 236B 個參數,其中每個令牌啟動 21B 個參數。與DeepSeek 67B相比,DeepSeek-V2實現了更強的效能,同時節省了42.5%。 | 擁抱臉 Github |
混合 8x22B (教育部) | 米斯特拉爾人工智慧 | 176B 主動 40B | Mixtral-8x22B 大型語言模型 (LLM) 是一種預先訓練的生成式稀疏專家混合模型。它的內容長度為 65,000 個令牌。 | 抱抱臉博客 |
Command-R+ | 連貫性 | 104B | C4AI Command R+ 是一個 104B 十億參數模型的開放權重研究版本,具有高度先進的功能,其中包括檢索增強生成 (RAG) 和用於自動執行複雜任務的工具。 Command R+ 針對各種用例進行了最佳化,包括推理、總結和問答。 | 抱臉 |
詹巴 (教育部) | AI21實驗室 | 52B 主動 12B | Jamba 是最先進的混合 SSM-Transformer 法學碩士。與傳統的基於 Transformer 的模型相比,它提供了吞吐量增益。它是一個預先訓練的混合專家 (MoE) 生成文字模型,具有 12B 個活動參數和所有專家的總共 52B 個參數。它支援 256K 上下文長度,並且可以在單一 80GB GPU 上容納多達 140K 令牌。 | 抱抱臉博客 |
DBRX(教育部) | 資料區塊 | 132B 主動 36B | DBRX 是一種基於 Transformer 的僅解碼器大語言模型 (LLM),使用下一個令牌預測進行訓練。它使用細粒度的專家混合 (MoE) 架構,共有 132B 個參數,其中 36B 個參數在任何輸入上都處於活動狀態。它是在 12T 文字和代碼資料標記上進行預訓練的。與 Mixtral-8x7B 和 Grok-1 等其他開放 MoE 模型相比,DBRX 是細粒度的,這意味著它使用了更多數量的小型專家。 DBRX 有 16 位專家,選擇 4 位,而 Mixtral-8x7B 和 Grok-1 有 8 位專家,選擇 2 位。 | HuggingFace Github 博客 |
Grok 1.0(教育部) | 人工智慧 | 314B | Grok 1.0 使用 8 位專家混合 (MoE)。 Grok 1.0 並未針對對話等特定應用進行微調,但與 GPT-3.5 和 Llama 2 等其他模型相比,表現出了強大的性能。 | Github 擁抱臉 |
芽 | Google | 2B 7B | Gemma 是 Google 推出的一系列輕量級、最先進的開放式模型,採用與創建 Gemini 模型相同的研究和技術建構。它們是文字到文字、僅限解碼器的大型語言模型,提供英文版本,具有開放權重、預訓練變體和指令調整變體。 Gemma 模型非常適合各種文本生成任務,包括問答、摘要和推理。 | HuggingFace Kaggle Github 博客 |
復發性傑瑪 | Google | 2B | RecurrentGemma 是一個基於新穎的循環架構的開放語言模型系列。與 Gemma 一樣,RecurrentGemma 模型非常適合各種文本生成任務,包括問答、摘要和推理。由於其新穎的架構,RecurrentGemma 比 Gemma 需要更少的內存,並且在生成長序列時實現更快的推理。 | 擁抱臉 Kaggle |
混合 8x7B (教育部) | 米斯特拉爾人工智慧 | 45B 主動 12B | Mixtral-8x7B 大型語言模型 (LLM) 是一種預先訓練的生成式稀疏專家混合模型。 Mixtral-8x7B 在大多數基準測試中都優於 Llama 2 70B。 | HuggingFace Kaggle 博客 |
Qwen1.5-MoE(教育部) | 阿里巴巴 | 14.3B 主動 2.7B | Qwen1.5-MoE 是一種基於 Transformer 的 MoE 僅解碼器語言模型,在大量資料上進行了預訓練。它採用專家混合 (MoE) 架構,其中模型是從密集語言模型升級而來的。它總共有14.3B個參數,運行時有2.7B個激活參數,在達到與Qwen1.5-7B相當的性能的同時,只需要25%的訓練資源。 | 抱臉 |
米斯特拉爾 7B v2 | 米斯特拉爾人工智慧 | 7B | 與 Mistral 7B 相比,Mistral 7B v2 有以下變化:- 32k 上下文視窗(v0.1 中為 8k 上下文),Rope-theta = 1e6,無滑動視窗注意。 | HuggingFace Github |
米斯特拉爾7B | 米斯特拉爾人工智慧 | 7B | Mistral-7B-v0.1 大型語言模型 (LLM) 是一個預先訓練的生成文字模型,具有 70 億個參數。 Mistral-7B-v0.1 在大多數基準測試中均優於 Llama 2 13B。 | Github HuggingFace Kaggle 博客 |
駱駝2 | 元人工智慧 | 7B 13B 70B | Llama 2 是一組經過預先訓練和微調的生成文字模型,參數規模從 70 億到 700 億不等。它是一種使用最佳化的轉換器架構的自回歸語言模型。調整後的版本使用監督微調(SFT)和具有人類回饋的強化學習(RLHF)來適應人類對有用性和安全性的偏好。 | HuggingFace Kaggle Github 博客 |
多莉 v2 | 資料區塊 | 3B 7B 12B | Dolly v2 是 Databricks 創建的因果語言模型,源自 EleutherAI 的 Pythia-12b,並在約 15K 記錄指令語料庫上進行了微調。 | HuggingFace Dolly3B HuggingFace Dolly7B HuggingFace Dolly12B Kaggle Github |
Command-R | 連貫性 | 35B | Command-R 是 350 億個參數的高效能生成模型的研究版本。 Command-R 是一種大型語言模型,具有開放權重,並針對推理、摘要和問答等各種用例進行了最佳化。 Command-R 具有以 10 種語言評估的多語言產生功能和高效能 RAG 功能。 | 擁抱臉 Kaggle |
Qwen1.5 | 阿里巴巴 | 0.5B 1.8B 4B 7B 14B 32B 72B | Qwen1.5 是一個基於 Transformer 的僅解碼器語言模型,在大量資料上進行了預訓練。它基於 Transformer 架構,具有 SwiGLU 激活、注意力 QKV 偏差、群組查詢注意力、滑動視窗注意力和全注意力的混合等。 | HuggingFace Github |
駱駝毛 v1.5 | 萊姆斯 | 7B 13B | Vicuna v1.5 是在 Llama 2 的基礎上進行了監督指令微調的微調。訓練資料是從 ShareGPT.com 收集的大約 125K 個對話。 Vicuna 的主要用途是研究大型語言模型和聊天機器人。 | HuggingFace 駱駝毛7B HuggingFace 駱駝毛13B |
Φ2 | 微軟 | 2.7B | Phi-2 是一個擁有 27 億個參數的 Transformer。它使用與 Phi-1.5 相同的資料來源進行訓練,並使用由各種 NLP 合成文字和過濾網站組成的新資料來源進行了增強。當根據測試常識、語言理解和邏輯推理的基準進行評估時,Phi-2 在參數少於 130 億的模型中展示了近乎最先進的性能。 | HuggingFace Kaggle 博客 |
虎鯨2號 | 微軟 | 7B 13B | Orca 2 僅用於研究目的,並在使用者給定資料推理、閱讀理解、數學問題解決和文字摘要等任務中提供單輪回應。該模型旨在特別擅長推理。此模型未針對聊天進行最佳化,也未使用 RLHF 或 DPO 進行訓練。 | 抱抱臉博客 |
史矛革 | 算盤人工智慧 | 34B 72B | Smaug 是使用新的微調技術 DPO-Positive (DPOP) 以及 ARC、HellaSwag 和 MetaMath(以及其他現有資料集)的新成對偏好版本創建的。 | 抱臉 |
MPT | 馬賽克 | 1B 7B 30B | MPT 是一種解碼器式轉換器,在 1T 英文文字和代碼標記上從頭開始進行預訓練。這些模型使用經過修改的變壓器架構,針對高效訓練和推理進行了最佳化。這些架構變化包括效能最佳化的層實現,以及透過用線性偏差注意力機制 (ALiBi) 取代位置嵌入來消除上下文長度限制。 | HuggingFace Kaggle Github |
鷸 | TLL | 7B 40B 180B | Falcon 是由 TII 建構的 7B/40B/180B 參數因果解碼器模型,並在使用精選語料庫增強的 RefinedWeb 的 1,000B/1,500B/3,500B 令牌上進行訓練。 | 抱臉 |
亞爾姆 | 揚德克斯 | 100B | YaLM 100B 是一個類似 GPT 的神經網絡,用於產生和處理文字。它在 800 個 A100 顯示卡集群上進行了 65 天的訓練。它專為文字生成和處理而設計。 | HuggingFace Github |
德西LM | 德西人工智慧 | 6B 7B | DeciLM 是僅解碼器的文字產生模型。此高效模型支援 8K 令牌序列長度,使用可變分組查詢注意力 (GQA) 來實現準確性和計算效率之間的卓越平衡。 | 抱臉 |
伯特 | Google | 110M至350M | BERT 是一個 Transformer 模型,以自我監督的方式在大型英語資料語料庫上進行預先訓練。這意味著它僅對原始文字進行了預訓練,沒有人透過自動過程從這些文字產生輸入和標籤以任何方式標記它們。 | HuggingFace Kaggle GitHub |
奧爾莫 | 艾倫人工智慧 | 1B 7B | OLMo 是一系列開放語言模型,旨在實現語言模型的科學。 OLMo 模型在 Dolma 資料集上進行訓練。 | HuggingFace Github |
Openchat3.5 | 開放聊天 | 7B | Openchat2.5是表現最好的7B LLM。 | HuggingFace Github |
盛開 | 大科學 | 176B | BLOOM 是一種自回歸大型語言模型 (LLM),經過訓練,可以使用工業規模的計算資源根據大量文字資料的提示繼續文字。 | 抱臉 |
Hermes 2 Pro 米斯特拉爾 | 諾斯研究 | 7B | Mistral 7B 上的 Hermes 2 Pro 是新旗艦 7B Hermes。 Hermes 2 Pro 是 Nous Hermes 2 的升級版、重新訓練版,由 OpenHermes 2.5 資料集的更新和清理版本以及新引入的內部開發的函數呼叫和 JSON 模式資料集組成。新版本的 Hermes 保持了其出色的一般任務和對話功能 - 但也擅長函數呼叫、JSON 結構化輸出。 | 抱臉 |
Hermes 2 Mixtral 7x8B (教育部) | 諾斯研究 | 主動12B | Nous Hermes 2 Mixtral 8x7B DPO 是經過 Mixtral 8x7B MoE LLM 訓練的新旗艦 Nous Research 模型。該模型接受了超過 1,000,000 個主要由 GPT-4 生成的資料條目以及來自整個 AI 領域開放資料集的其他高品質資料的訓練,在各種任務上實現了最先進的效能。這是 Mixtral Hermes 2 的 SFT + DPO 版本。 | 抱臉 |
默林石 | 國際商業機器公司 | 7B | Merlinite-7b 是使用 LAB 方法訓練的 Mistral-7b 衍生模型,使用 Mixtral-8x7b-Instruct 作為教師模型。 | 抱臉 |
拉長石 | 國際商業機器公司 | 13B | Labradorite-13b 是使用 LAB 方法訓練的 LLaMA-2-13b 衍生模型,使用 Mixtral-8x7b-Instruct 作為教師模型。 | 抱臉 |
Xgen | 銷售人員 | 7B | Xgen 是一種大型語言模型,上下文長度為 8K、4K,並針對長序列任務進行了最佳化。 | HuggingFace Github |
太陽的 | 後台 | 10.7B | SOLAR-10.7B是一種先進的大語言模型(LLM),擁有107億個參數,在各種自然語言處理(NLP)任務中展示了卓越的性能。它結構緊湊,但功能非常強大,並在參數低於 30B 的模型中展示了無與倫比的最先進性能。 | 抱臉 |
GPT-Neox | 埃魯瑟人工智慧 | 20B | GPT-NeoX-20B 是使用 GPT-NeoX 函式庫在 Pile 上訓練的 200 億參數自回歸語言模型。其架構故意類似於 GPT-3,並且與 GPT-J-6B 幾乎相同。 | 擁抱臉 GitHub |
水果餡餅-T5 | Google | 80M轉11B | FLAN-T5 是 T5 的修改版本,具有相同數量的參數,這些模型已針對 1000 多個附加任務進行了微調,涵蓋了更多語言。各種尺寸:- flan-t5-小、flan-t5-底座、flan-t5-大、flan-t5-xxl | 擁抱臉 Kaggle |
選擇 | 元人工智慧 | 125M 轉 175B | OPT 是僅解碼器的預訓練 Transformer,參數範圍從 125M 到 175B。它主要是用英文文本進行預先訓練的,但透過 CommonCrawl 的訓練語料庫中仍然存在少量非英語資料。 | 抱臉 |
穩定的LM 2 | 穩定性人工智慧 | 1.6B 12B | Stable LM 2 是僅解碼器的語言模型,在兩個時期的不同多語言和程式碼資料集的 2 兆個標記上進行了預訓練。 | 抱臉 |
穩定的 LM Zephyr | 穩定性人工智慧 | 3B | StableLM Zephyr 3B 模型是基於 Transformer 解碼器架構的自迴歸語言模型。 StableLM Zephyr 3B 是一個包含 30 億個參數的參數,使用直接偏好優化 (DPO) 在公開資料集和合成資料集上進行訓練。 | 抱臉 |
綾 | 連貫性 | 13B | Aya 模型是一種 Transformer 風格的自回歸大規模多語言生成語言模型,遵循 101 種語言的指令。它具有與 mt5-xxl 相同的架構。 | HuggingFace Kaggle 博客 |
神經管3 | 英偉達 | 8B | Nemotron-3 是大型語言基礎模型,供企業建構自訂法學碩士。此基礎模型有 80 億個參數,支援 4,096 個令牌的上下文長度。 Nemotron-3 是一系列企業級生成文字模型,與 NVIDIA NeMo 框架相容。 | 抱臉 |
神經聊天 v3 | 英特爾 | 7B | Neural Chat 是 Intel Gaudi 2 處理器上經過微調的 7B 參數 LLM,來自開源資料集 Open-Orca/SlimOrca 上的 Mistralai/Mistral-7B-v0.1。該模型使用直接性能最佳化 (DPO) 方法進行調整。 | 抱臉 |
彝族 | 01 人工智慧 | 6B 9B 34B | Yi系列模型是下一代開源大語言模型。它們的目標是雙語語言模型,並在 3T 多語言語料庫上進行訓練,在語言理解、常識推理、閱讀理解等方面表現出良好的前景。 | HuggingFace Github |
椋鳥LM | Nexusflow | 7B | Starling LM,一種由 AI 回饋強化學習 (RLAIF) 訓練的開放式大語言模型 (LLM)。 Starling LM 使用我們的新獎勵模型 Starling-RM-34B 和根據人類偏好微調語言模型 (PPO) 的策略最佳化方法從 Openchat-3.5-0106 進行訓練。 | 抱臉 |
NexusRaven v2 | Nexusflow | 13B | NexusRaven 是一個開源且商業上可行的函數呼叫 LLM,超越了最先進的函數呼叫能力。 NexusRaven-V2 能夠產生深度巢狀函數呼叫、平行函數呼叫和簡單的單一呼叫。它也可以證明它產生的函數呼叫是合理的。 | 抱臉 |
深思法學碩士 | 深思人工智慧 | 7B 67B | DeepSeek LLM 是一種高階語言模型。它是在包含 2 兆個英文和中文標記的龐大資料集上從頭開始訓練的。 | HuggingFace Github |
Deepseek VL(多模式) | 深思人工智慧 | 1.3B 7B | DeepSeek-VL,一種開源視覺語言 (VL) 模型,專為現實世界的視覺和語言理解應用而設計。 DeepSeek-VL具備通用的多模態理解能力,能夠處理複雜場景下的邏輯圖、網頁、公式辨識、科學文獻、自然圖像、體現智能等。它是一種支援 1024 x 1024 圖像輸入的混合視覺編碼器,基於 DeepSeek-7b-base 構建,該庫在 2T 文本標記的近似語料庫上進行訓練。 | HuggingFace Github |
Llava 1.6(多式聯運) | 拉瓦高頻 | 7B 13B 34B | LLaVa 將預先訓練的大型語言模型與預先訓練的視覺編碼器結合,用於多模式聊天機器人用例。可用型號:- Llava-v1.6-34b-hf、Llava-v1.6-Mistral-7b-hf、Llava-v1.6-Vicuna-7b-hf、Llava-v1.6-vicuna-13b-hf | 擁抱臉 擁抱臉 |
Yi VL(多式聯運) | 01 人工智慧 | 6B 34B | Yi-VL 模型是 Yi 大語言模型 (LLM) 系列的開源多模態版本,可實現影像的內容理解、辨識和多輪對話。 | HuggingFace YiVL6B HuggingFace YiVL34B |