LLMDataHub
1.0.0
比對資料集 • 特定領域資料集 • 預訓練資料集 ?️ 多模式資料集
OpenAI的GPT系列、Google的Bard、百度的文心一言等大型語言模型(LLM)正在推動深刻的技術變革。近年來,隨著LlaMa、ChatGLM等開源大型模型框架的出現,培養LLM不再是資源豐富的公司的專屬領域。由小型組織或個人訓練法學碩士已成為開源社群的重要興趣,一些著名的作品包括 Alpaca、Vicuna 和 Luotuo。除了大型模型框架之外,大規模、高品質的訓練語料對於訓練大型語言模型也至關重要。目前社群中相關開源語料庫還比較分散。因此,此儲存庫的目標是不斷收集開源社群中LLM的高品質培訓語料庫。
訓練能夠有效遵循人類指令的聊天機器人 LLM 需要存取涵蓋一系列對話領域和風格的高品質資料集。在此儲存庫中,我們提供了專為聊天機器人訓練設計的精選資料集,包括連結、大小、語言、用法以及每個資料集的簡要描述。我們的目標是讓研究人員和從業者更輕鬆地識別和選擇最相關和最有用的資料集,以滿足他們的聊天機器人 LLM 培訓需求。無論您是致力於提高聊天機器人對話品質、回應產生還是語言理解,這個儲存庫都能滿足您的需求。
如果您想貢獻,您可以聯繫:
趙俊豪?
指導老師:崔萬雲教授
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
幫助轉向 | / | RLHF | 英語 | 37,000 個實例 | 由人類標註有用性、正確性、連貫性、複雜性和冗餘長度的 RLHF 資料集 |
沒有機器人 | / | 快速傅立葉變換 | 英語 | 10k 實例 | 高品質的人工創建的 STF 數據,單輪。 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
人擇_ HH_金色 | 烏爾瑪 | SFT / RLHF | 英語 | 訓練 42.5k + 測試 2.3k | 改進了 Anthropic 的 Helpful and Harmless (HH) 資料集的無害資料集。使用 GPT4 重寫原來的「選擇」答案。與原始 Harmless 資料集相比,根據經驗,此資料集在無害指標上顯著提高了 RLHF、DPO 或 ULMA 方法的效能。 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
功能_ 呼叫_ 擴充 | / | 對 | 英語 程式碼 | / | 高品質的人工創建資料集,增強 LM 的 API 使用能力。 |
美國故事 | / | PT | 英語 | / | 從美國國會圖書館掃描的大量語料庫。 |
卓瑪 | OLMo | PT | / | 3T代幣 | 用於 LM 預訓練的大型多樣化開源語料庫。 |
鴨嘴獸 | 鴨嘴獸2 | 對 | 英語 | 25K | 一個非常高品質的數據集,用於提高 LM 的 STEM 推理能力。 |
海雀 | 雷蒙德-海雀 系列 | 對話 | 英語 | ~3k 條目 | 資料集由真人與 GPT-4 之間的對話組成,具有長上下文(每次對話超過 1k 個標記)和多輪對話。 |
小系列 | / | 對 | 英語 | / | 一系列簡短的程式碼或文字旨在提高LM的推理能力。 |
長椅 | / | 評估 僅有的 | 英語 中國人 | 17 項任務 | 評估LLM長上下文理解能力的基準。 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
逆戟鯨聊天 | / | 對話 | 英語 | 198,463 筆記錄 | Orca 風格的對話資料集旨在提高 LM 的長上下文對話能力。 |
對話工作室 | / | 對話 | 多種語言 | / | 旨在建立對話式聊天機器人的不同資料集的集合。 |
聊天機器人競技場 _對話 | / | RLHF 對話 | 多種語言 | 33,000 次對話 | 在 Chatbot Arena 上收集的與成對人類偏好的清理對話。 |
WebGLM-qa | 網頁GLm | 對 | 英語 | 43.6k 條目 | WebGLM使用的資料集,這是一個基於LLM和互聯網的QA系統。該資料集中的每個條目都包含一個問題、一個答案和一個參考。響應以參考文獻為基礎。 |
phi-1 | phi-1 | 對話 | 英語 | / | 使用Textbooks Are All You Need中的方法產生的資料集。它專注於數學和計算機科學問題。 |
林莉- 預訓練- 數據集 | 林力系列 | PT | 中國人 | 3.4GB | Linly系列模型使用的中文預訓練資料集,包括ClueCorpusSmall、CSL news-crawl等。 |
細粒度RLHF | / | RLHF | 英語 | ~5K 範例 | 回購協議旨在開發一個新的框架來收集人類回饋。收集資料的目的是提高法學碩士的事實正確性、主題相關性和其他能力。 |
海豚 | / | 對 | 英語 | 450 萬條條目 | 試圖複製微軟的 Orca。基於 FLANv2。 |
開放聊天_ 分享gpt4_ 數據集 | 開放聊天 | 對話 | 英語 | 6k 對話框 | 使用GPT-4產生的高品質資料集,完成細化的ShareGPT提示。 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
開放逆戟鯨 | / | 對 | 英語 | 450 萬次完成 | 增強 FLAN 資料的集合。使用方法產生的是Orca紙。 |
COIG-PC COIG-Lite | / | 對 | 中國人 | / | COIG 的增強版。 |
WizardLM_Orca | Orca_mini系列 | 對 | 英語 | 55K 條目 | 增強的 WizardLM 數據。使用orca的方法產生。 |
arxiv 指示資料集 數學 CS 物理 | / | 對 | 英語 | 5萬/ 5萬/ 30K 條目 | 資料集由源自 ArXiv 摘要的問答對組成。問題是使用 t5-base 模型產生的,而答案是使用 GPT-3.5-turbo 模型產生的。 |
我-感覺- 好奇的 | / | 對 | 英語 | 2595 筆記錄 | 由Google產生的隨機問題和對應事實讓我感到好奇的功能。 |
ign_clean _指示 _資料集_500k | / | 對 | / | 509K 條目 | 由 Ultrachat 提示的子集綜合建立的大型 SFT 資料集。缺乏詳細的數據卡 |
嚮導LM 進化指令V2 | 嚮導LM | 對話 | 英語 | 196k 條目 | Evolve Instruct 資料集的最新版本。 |
恐龍 | / | 對 | 英語 | 800K 條目 | 應用本文方法產生的資料集。亮點是以低成本產生高品質數據。 |
修身睡衣 | / | PT | 主要是 英語 | / | RedPajama 的清理和重複資料刪除版本 |
LIMA資料集 | 利馬 | 對 | 英語 | 1,000 筆條目 | LIMA 使用的高品質 SFT 資料集:Less Is More for Alignment |
老虎機器人係列 | 老虎機器人 | PT 對 | 中國人 英語 | / | 用於訓練 TigerBot 的資料集,包括預訓練資料、STF 資料和一些特定領域的資料集,例如金融研究報告。 |
TSI-v0 | / | 對 | 英語 | 30k 個範例 每個任務 | 從 475 個任務來源資料集重新產生的多任務指令調整資料。類似於 Flan 資料集和自然指令。 |
非MBVC | / | PT | 中國人 | / | 大規模、持續更新的中文預訓練資料集。 |
堆疊溢位 郵政 | / | PT | / | 35GB | Markdown 格式的原始 StackOverflow 數據,用於預訓練。 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
LaMini-指令 | / | 對 | 英語 | 280 萬筆 | 從 flan 集合、p3 和自我指導中提取的資料集。 |
超級聊天 | / | 對話 | 英語 | 157 萬個對話框 | 使用兩個 ChatGPT 建立的大規模對話資料集,其中一個充當用戶,另一個產生回應。 |
分享GPT_ 駱馬毛_未過濾 | 駱駝毛 | 對 | 多種語言 | 53K 條目 | 清理 ShareGPT 資料集。 |
pku-saferlhf-資料集 | 海狸 | RLHF | 英語 | 10K+1M | 第一個此類資料集,包含 10k 個具有安全偏好的實例。 |
RefGPT-資料集 非官方連結 | 參考GPT | 配對、對話 | 中國人 | 約 50K 條目 | 中文對話資料集旨在提高法學碩士事實的正確性(減輕法學碩士的幻覺)。 |
駱駝QA-A CoQA-中文 | 駱駝項目 | 情境 | 中國人 | 127K 個 QA 對 | 基於翻譯後的 CoQA 所建構的資料集。透過使用 OpenAI API 進行增強。 |
精靈-LM-中文 指令進化 | 駱駝項目 | 對 | 中國人 | 約 70K 條目 | 中文版WizardLM 70K。透過在 OpenAI 的 GPT API 中提要翻譯的問題來獲得答案,然後獲得回應。 |
羊駝_中文 數據集 | / | 對 | 中國人 | / | GPT-4翻譯的羊駝資料包括一些補充資料(如中文詩歌、應用程式等)。經人工檢查。 |
知乎KOL | 打開助手 | 對 | 中國人 | 1.5GB | QA 數據來自中國知名的 QA 平台。 |
羊駝-GPT-4_zh-cn | / | 對 | 中國人 | 約 50K 條目 | 中國羊駝風格的資料集,由 GPT-4 生成,最初是中文,未翻譯。 |
hh-rlhf 上擁抱臉 | 無尾熊 | RLHF | 英語 | 161k 對 79.3MB | 用於在強化學習中訓練獎勵模型的成對資料集,以提高語言模型的無害性和有用性。 |
Panther-dataset_v1 | 豹 | 對 | 英語 | 377 筆記錄 | 資料集來自 hh-rlhf。它將 hh-rlhf 重寫為輸入輸出對的形式。 |
白澤資料集 | 白澤 | 對話 | 英語 | 100K 對話框 | GPT-4 使用自我對話產生的對話資料集。問題和主題是從 Quora、StackOverflow 和一些醫學知識源收集的。 |
h2ogpt-fortune2000 個人化 | h2gpt | 對 | 英語 | 11363 筆記錄 | h2oai 開發的指令微調涵蓋了各種主題。 |
小水電 | 馬厩駱駝毛, 聊天選擇, , 蒸汽SHP | RLHF | 英語 | 385K 條目 | RLHF資料集與前面提到的資料集不同,它使用分數+時間戳來推斷使用者的偏好。涵蓋 18 個領域,由史丹佛大學收集。 |
ELI5 | 迷你LM系列 | 金融時報, RLHF | 英語 | 270K 條目 | 從 Reddit 收集的問題和解答,包括分數。可能用於 RLHF 獎勵模型訓練。 |
嚮導LM 進化指令 V2 | 嚮導LM | 對 | 英語 | 使用本文的進化方法從 Alpaca-52K 導出的指令微調資料集 | |
MOSS SFT 數據 | 苔蘚 | 對, 對話 | 中文、英文 | 110 萬條條目 | MOSS 團隊收集和開發的會話資料集。它為每個資料條目都貼上了有用、忠誠和無害的標籤。 |
分享GPT52K | 無尾熊,穩定的法學碩士 | 對 | 多種語言 | 52K | 該資料集包含從 ShareGPT 收集的對話,特別關注客製化的創意對話。 |
GPT-4all 資料集 | GPT-4all | 對 | 英語, 可能有 翻譯版本 | 40 萬條條目 | OIG、P3 和 Stackoverflow 的一些子集的組合。涵蓋一般 QA、客製化創意問題等主題。 |
科伊格 | / | 對 | 中國人, 程式碼 | 20 萬筆 | 基於中文的資料集。它包含通用 QA、中文考試、代碼等領域。其品質由人工註釋者檢查。 |
紅色睡衣-Data-1T | 紅色睡衣 | PT | 主要是英語 | 1.2T代幣 5TB | 完全開放的預訓練資料集遵循 LLaMA 的方法。 |
OAST1 | 打開助手 | 對, 對話 | 多種語言 (英語、西班牙語等) | 66,497 個對話樹 | 一個大型的、手動編寫、人工註釋的高品質對話資料集。它的目的是讓LLM產生更自然的反應。 |
羊駝毛-COT | 鳳凰 | 對, 對話, 鈷酸甲酯 | 英語 | / | 混合了許多資料集,如經典的 Alpaca 資料集、OIG、Guanaco 和一些 CoT(思想鏈)資料集,如 FLAN-CoT。使用起來可能會很方便。 |
雙峰-X | / | 對 | 多種語言 (52 種語言) | 每種語言 67K 個條目 | Alpaca和Dolly-15K的多語言版本。 |
databricks-dolly-15k zh-cn版本 | 多莉2.0 | 對 | 英語 | 超過 15K 個條目 | 人類編寫的提示和回應的資料集,包含開放域問答、腦力激盪、總結等任務。 |
羊駝資料清理 | 一些類似羊駝毛/ LLaMA 的型號 | 對 | 英語 | / | Alpaca、GPT_LLM 和 GPteacher 的清理版本。 |
GPT-4-LLM資料集 | 一些類似羊駝毛的款式 | 對, RLHF | 英語, 中國人 | 英文、中文各52K條 9K 條目非自然指令 | 不是 GPT-4 使用的資料集!它由 GPT-4 和其他一些 LLM 生成,以實現更好的配對和 RLHF。它包括 RLHF 風格的指令資料和比較資料。 |
GP老師 | / | 對 | 英語 | 20k 條目 | 資料集包含 GPT-4 產生的目標,並包含許多與 Alpaca 資料集相同的種子任務,也加入了一些新任務,例如角色扮演。 |
HC3 | 無尾熊 | RLHF | 英語, 中國人 | 24322 英語 12853 中文 | 多域、人類與 ChatGPT 比較資料集。可用於獎勵模型訓練或 ChatGPT 偵測器訓練。 |
羊駝數據 下載 | 羊駝、ChatGLM-finetune-LoRA、無尾熊 | 對話, 對 | 英語 | 52K 條目 21.4MB | 由 text-davinci-003 產生的資料集,用於提高語言模型遵循人類指令的能力。 |
監察長辦公室 OIG-小晶片2 | Pythia-Chat-Base-7B、GPT-NeoXT-Chat-Base-20B、無尾熊 | 對話, 對 | 英語, 程式碼 | 44M 條目 | 具有中等和高品質子集(OIG-small-chip2)的大型會話指令資料集,用於多任務學習。 |
聊天羊駝數據 | / | 對話, 對 | 英語, 中文版即將推出 | 10k 條目 39.5MB | 資料集旨在幫助研究人員開發多輪對話中遵循指令的模型。 |
指令狂野 | 巨聊 | 對 | 英文、中文 | 10K 場次 | 羊駝風格的資料集,但帶有種子任務,來自 chatgpt 螢幕截圖。 |
Firefly(流螢) | Firefly(流螢) | 對 | 中國人 | 110 萬條條目 1.17GB | 中文指令調優資料集,包含 23 個任務的 110 萬個人工所寫的範例,但沒有對話。 |
美女 0.5M版本 1M版本 2M版本 | BELLE系列,春華 | 對 | 中國人 | 共2.67B | 類似於羊駝資料的中文指令資料集,透過從種子任務產生答案而構建,但沒有對話。 |
原駝資料集 | 原駝 | 對話, 對 | 英語, 中國人, 日本人 | 534,530 筆記錄 | 多語言指令資料集,用於增強語言模型在各種語言任務中的能力,例如自然語言理解和顯式內容識別。 |
OpenAI WebGPT | WebGPT的獎勵模型,Koala | RLHF | 英語 | 19,578 對 | WebGPT 論文中使用的資料集。用於RLHF中訓練獎勵模型。 |
開放人工智慧 總結 比較 | 無尾熊 | RLHF | 英語 | 約 93K 條目 420MB | 人類回饋資料集,有助於訓練獎勵模型。然後使用獎勵模型來訓練摘要模型以符合人類偏好。 |
自學 | / | 對 | 英語 | 82K 條目 | 使用眾所周知的自指令方法產生的資料集 |
非自然指令 | / | 對 | 英語 | 240,670 個範例 | 早期嘗試使用強大的模型(text-davinci-002)來產生資料。 |
xP3(和一些變體) | 布魯姆茲,mT0 | 對 | 多種語言, 程式碼 | 79M 條目 88GB | 用於提高語言模型泛化能力的指令資料集,類似Natural Instruct 。 |
水果餡餅V2 | / | / | 英語 | / | 資料集將 Flan 2021、P3、超自然指令以及其他數十個資料集編譯為一個資料集,並將它們格式化為零樣本、少樣本和思維鏈模板的混合形式 |
自然教學 GitHub&下載 | TK-指令系列 | 對, 評估 | 多種語言 | / | 此基準包含超過 1,600 個帶有指令和定義的任務,用於評估和改進自然語言指令下語言模型的多任務泛化能力。 |
克羅斯沃茲 | / | 對話 | 英語, 中國人 | 6K 對話 | 本文引入的資料集主要是關於北京旅遊主題的資料集,答案是透過規則自動產生的。 |
我們將行項目視為主題。
監察長辦公室 | hh-rlhf | xP3 | 自然指導 | 羊駝資料清理 | GPT-4-法學碩士 | 羊駝毛CoT | |
---|---|---|---|---|---|---|---|
監察長辦公室 | / | 包含 | 重疊 | 重疊 | 重疊 | 重疊 | |
hh-rlhf | 的一部分 | / | 重疊 | ||||
xP3 | 重疊 | / | 重疊 | 重疊 | |||
自然指導 | 重疊 | 重疊 | / | 重疊 | |||
羊駝資料清理 | 重疊 | / | 重疊 | 重疊 | |||
GPT-4-法學碩士 | 重疊 | / | 重疊 | ||||
羊駝毛CoT | 重疊 | 重疊 | 重疊 | 重疊 | 重疊 | 重疊 | / |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
證明樁 | 證明-GPT | PT | 英語 乳膠 | 13GB | 一個類似pile的預訓練資料集,但有LaTeX語料庫,以增強LM的證明能力。 |
硫酸鹽 | / | PT | 英語 | 7.5GB | 用於預訓練的高品質學術論文資料集。 |
堆疊溢位 郵政 | / | PT | / | 35GB | Markdown 格式的原始 StackOverflow 數據,用於預訓練。 |
修身睡衣 | / | PT | 主要是 英語 | / | RedPajama 的清理和重複資料刪除版本 |
非MBVC | / | PT | 中國人 | / | 大規模、持續更新的中文預訓練資料集。 |
falcon-refinedweb | 蒂尤埃/獵鷹系列 | PT | 英語 | / | CommonCrawl 的精緻子集。 |
CBook-150K | / | PT, 建構資料集 | 中國人 | 15 多萬本書 | 原始中文書籍資料集。需要一些預處理管道。 |
普通爬行 | LLaMA(經過一些處理) | 建構資料集, PT | / | / | 最著名的原始資料集,很少被直接使用。一種可能的預處理管道是 CCNet |
nlp_中文_語料庫 | / | PT, TF | 中國人 | / | 中文預訓練語料庫。包括維基百科、百度百科、百度問答、一些論壇問答和新聞語料庫。 |
樁 (V1) | GLM(部分)、LLaMA(部分)、GPT-J、GPT-NeoX-20B、Cerebras-GPT 6.7B、OPT-175b | PT | 多種語言, 程式碼 | 825GB | 一個多樣化的開源語言建模資料集,由 22 個較小的高品質資料集組成,其中包括許多領域和任務。 |
C4 Huggingface 資料集 TensorFlow 資料集 | Google T5 系列,LLaMA | PT | 英語 | 305GB | Common Crawl 網路爬行語料庫的龐大、乾淨版本。經常被使用。 |
根 | 盛開 | PT | 多種語言, 程式碼 | 1.6TB | 一個多樣化的開源資料集,由用於語言建模的 Wikipedia 和 StackExchange 等子資料集組成。 |
PushshPairs 紅迪特 紙 | OPT-175b | PT | / | / | 原始 Reddit 數據,本文中一種可能的處理流程 |
古騰堡計劃 | 駱駝 | PT | 多種語言 | / | 書籍資料集,主要是小說。不進行預處理。 |
線索語料庫 | / | PT, 微調, 評估 | 中國人 | 100GB | 來自Common Crawl的中文預訓練語料庫。 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
星碼數據 | 星編碼器 系列 | PT | 程式碼 | 783GB | 用於提高 LM 編碼能力的大型預訓練資料集。 |
代碼_ 指示 _120k_羊駝毛 | / | 對 | 英文/代碼 | 121,959 筆記錄 | 指令微調格式的 code_instruction。 |
功能- 呼叫次數-25k | 一些MPT 變體 | 對 | 英文代碼 | 25K 條目 | 資料集旨在教導 AI 模型如何根據自然語言提示正確呼叫 APIsGuru 函數。 |
定理QA | / | 對 | 英語 | 800 | 高品質的 STEM 定理 QA 資料集。 |
phi-1 | phi-1 | 對話 | 英語 | / | 使用Textbooks Are All You Need中的方法產生的資料集。它專注於數學和計算機科學問題。 |
金融自然語言處理 | 芬GPT | 原始數據 | 英語, 中國人 | / | 開源原始金融文字資料。包括新聞、社群媒體等。 |
PRM800K | 的一個變體 GPT-4 | 情境 | 英語 | 800K 條目 | 數學問題的過程監督資料集 |
微信數據 | 微信 | 對話 | 中國人 | 355733 條言論 | 用於訓練心理健康聊天機器人的中國 SFT 資料集。 |
ChatGPT-越獄-提示 | / | / | 英語 | 文件大小 163KB | 提示繞過ChatGPT的安全規定。可用於探討法學碩士的無害性 |
很棒的中國人 法律資源 | 拉維格PT | / | 中國人 | / | 法學碩士培訓中國法律資料合集。 |
長格式 | / | 對 | 英語 | 23.7K 條目 | 旨在提高LLM長文本生成能力的資料集。 |
符號指令調整 | / | 對 | 英語, 程式碼 | 第796章 | 資料集專注於「符號」任務:例如 SQL 編碼、數學計算等。 |
安全提示 | / | 僅評估 | 中國人 | 10 萬條條目 | 中國安全提示評估和提高法學碩士的安全性。 |
貘清理 | / | 對 | 英語, | 116k 條目 | 這是 PairsTT 規則的 DAISLab 資料集的修訂版本,已徹底清理、評分和調整,用於指令調整 |
教學_ 程式碼searchnet_python | / | 對 | 英語 & Python | 192MB | 該資料集是模板產生的教學性 Python 資料集,是根據 Open-Assistant 專案的 code-search-net 資料集的註釋版本生成的。 |
金融-羊駝 | / | 對 | 英語 | 1.3K 條目 | 羊駝風格的數據集,但專注於金融主題 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
分享GPT4V | / | 圖像提示標題 | 英語 | 120 萬個實例 | 一組 GPT4-Vision 支援的多模式字幕資料。 |
奧貝力克斯 | 意識形態 系列 | 影像文件 | 英語 | 141M 文檔 | 一個開放的、大量的、精心策劃的交錯圖像文字 Web 文件集合。 |
旅程資料庫 | / | 圖像提示標題 | 英語 | 400萬個實例 | 大規模資料集包括基於中途圖像的 QA、標題和文字提示任務。 |
M3IT | 英-VLM | 指令影像 | 多種語言 | 240 萬個實例 | 資料集包含 40 個任務和 400 個人工書面指令。 |
模仿IT | 獺 | 指令影像 | 多語言 | 220 萬個實例 | 基於影像和視訊的高品質多模式指令響應對。 |
拉瓦指令 | 拉瓦 | 指令影像 | 英語 | 158k 樣本 | 透過提示 GPT-4 取得指令,在 COCO 資料集上產生的多模態資料集。 |
資料集名稱 | 使用者 | 類型 | 語言 | 尺寸 | 說明️ |
---|---|---|---|---|---|
網路文字(Reddit 連結) | GPT-2 | PT | 英語 | / | 資料從 Reddit 爬取並過濾以進行 GPT-2 預訓練。 |
海量文本 | 地鼠、龍貓 | PT | 99% 英語,1% 其他(包括代碼) | ||
悟道語料庫 | 廣義線性模型 | PT | 中國人 | 200GB | 大規模中文語料庫,可能的元件原本是開源的,但現在不可用。 |