LLMDataHub
1.0.0
比对数据集 • 特定领域数据集 • 预训练数据集 ?️ 多模式数据集
OpenAI的GPT系列、Google的Bard、百度的文心一言等大型语言模型(LLM)正在推动深刻的技术变革。近年来,随着LlaMa、ChatGLM等开源大型模型框架的出现,培养LLM不再是资源丰富的公司的专属领域。由小型组织或个人培训法学硕士已成为开源社区的一个重要兴趣,一些著名的作品包括 Alpaca、Vicuna 和 Luotuo。除了大型模型框架之外,大规模、高质量的训练语料对于训练大型语言模型也至关重要。目前社区中相关开源语料库还比较分散。因此,该存储库的目标是不断收集开源社区中LLM的高质量培训语料库。
训练能够有效遵循人类指令的聊天机器人 LLM 需要访问涵盖一系列对话领域和风格的高质量数据集。在此存储库中,我们提供了专门为聊天机器人训练设计的精选数据集,包括每个数据集的链接、大小、语言、用法和简要描述。我们的目标是让研究人员和从业者更轻松地识别和选择最相关和最有用的数据集,以满足他们的聊天机器人 LLM 培训需求。无论您是致力于提高聊天机器人对话质量、响应生成还是语言理解,这个存储库都能满足您的需求。
如果您想贡献,您可以联系:
赵俊豪?
指导老师:崔万云教授
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
帮助转向 | / | RLHF | 英语 | 37,000 个实例 | 由人类标注有用性、正确性、连贯性、复杂性和冗长度量的 RLHF 数据集 |
没有机器人 | / | 快速傅里叶变换 | 英语 | 10k 实例 | 高质量的人工创建的 STF 数据,单轮。 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
人择_ HH_金色 | 乌尔玛 | SFT / RLHF | 英语 | 训练 42.5k + 测试 2.3k | 改进了 Anthropic 的 Helpful and Harmless (HH) 数据集的无害数据集。使用 GPT4 重写原来的“选择”答案。与原始 Harmless 数据集相比,根据经验,该数据集在无害指标上显着提高了 RLHF、DPO 或 ULMA 方法的性能。 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
功能_ 呼叫_ 扩展 | / | 对 | 英语 代码 | / | 高质量的人工创建数据集,增强 LM 的 API 使用能力。 |
美国故事 | / | PT | 英语 | / | 从美国国会图书馆扫描的大量语料库。 |
卓玛 | OLMo | PT | / | 3T代币 | 用于 LM 预训练的大型多样化开源语料库。 |
鸭嘴兽 | 鸭嘴兽2 | 对 | 英语 | 25K | 一个非常高质量的数据集,用于提高 LM 的 STEM 推理能力。 |
海雀 | 雷蒙德-海雀 系列 | 对话 | 英语 | ~3k 条目 | 数据集由真人与 GPT-4 之间的对话组成,具有长上下文(每次对话超过 1k 个标记)和多轮对话。 |
小系列 | / | 对 | 英语 | / | 一系列简短的代码或文本旨在提高LM的推理能力。 |
长凳 | / | 评估 仅有的 | 英语 中国人 | 17 项任务 | 评估LLM长上下文理解能力的基准。 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
逆戟鲸聊天 | / | 对话 | 英语 | 198,463 条记录 | Orca 风格的对话数据集旨在提高 LM 的长上下文对话能力。 |
对话工作室 | / | 对话 | 多种语言 | / | 旨在构建对话式聊天机器人的不同数据集的集合。 |
聊天机器人竞技场 _对话 | / | RLHF 对话 | 多种语言 | 33,000 次对话 | 在 Chatbot Arena 上收集的与成对人类偏好的清理对话。 |
WebGLM-qa | 网页GLm | 对 | 英语 | 43.6k 条目 | WebGLM使用的数据集,这是一个基于LLM和互联网的QA系统。该数据集中的每个条目都包含一个问题、一个回答和一个参考。响应以参考文献为基础。 |
phi-1 | phi-1 | 对话 | 英语 | / | 使用Textbooks Are All You Need中的方法生成的数据集。它专注于数学和计算机科学问题。 |
林莉- 预训练- 数据集 | 林力系列 | PT | 中国人 | 3.4GB | Linly系列模型使用的中文预训练数据集,包括ClueCorpusSmall、CSL news-crawl等。 |
细粒度RLHF | / | RLHF | 英语 | ~5K 示例 | 回购协议旨在开发一个新的框架来收集人类反馈。收集数据的目的是提高法学硕士的事实正确性、主题相关性和其他能力。 |
海豚 | / | 对 | 英语 | 450 万条条目 | 试图复制微软的 Orca。基于 FLANv2。 |
开放聊天_ 分享gpt4_ 数据集 | 开放聊天 | 对话 | 英语 | 6k 对话框 | 使用GPT-4生成的高质量数据集,完成细化的ShareGPT提示。 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
开放逆戟鲸 | / | 对 | 英语 | 450 万次完成 | 增强 FLAN 数据的集合。使用方法生成的是Orca纸。 |
COIG-PC COIG-Lite | / | 对 | 中国人 | / | COIG 的增强版。 |
WizardLM_Orca | Orca_mini系列 | 对 | 英语 | 55K 条目 | 增强的 WizardLM 数据。使用orca的方法生成。 |
arxiv 指示数据集 数学 CS 物理 | / | 对 | 英语 | 5万/ 5万/ 30K 条目 | 数据集由源自 ArXiv 摘要的问答对组成。问题是使用 t5-base 模型生成的,而答案是使用 GPT-3.5-turbo 模型生成的。 |
我-感觉- 好奇的 | / | 对 | 英语 | 2595 条记录 | 由谷歌生成的随机问题和对应事实让我感到好奇的功能。 |
ign_clean _指示 _数据集_500k | / | 对 | / | 509K 条目 | 由 Ultrachat 提示的子集综合创建的大型 SFT 数据集。缺乏详细的数据卡 |
向导LM 进化指令V2 | 向导LM | 对话 | 英语 | 196k 条目 | Evolve Instruct 数据集的最新版本。 |
恐龙 | / | 对 | 英语 | 800K 条目 | 应用本文方法生成的数据集。亮点是以低成本生成高质量数据。 |
修身睡衣 | / | PT | 主要是 英语 | / | RedPajama 的清理和重复数据删除版本 |
LIMA数据集 | 利马 | 对 | 英语 | 1,000 条条目 | LIMA 使用的高质量 SFT 数据集:Less Is More for Alignment |
老虎机器人系列 | 老虎机器人 | PT 对 | 中国人 英语 | / | 用于训练 TigerBot 的数据集,包括预训练数据、STF 数据和一些特定领域的数据集,例如金融研究报告。 |
TSI-v0 | / | 对 | 英语 | 30k 个示例 每个任务 | 从 475 个任务源数据集重新生成的多任务指令调整数据。类似于 Flan 数据集和自然指令。 |
非MBVC | / | PT | 中国人 | / | 大规模、持续更新的中文预训练数据集。 |
堆栈溢出 邮政 | / | PT | / | 35GB | Markdown 格式的原始 StackOverflow 数据,用于预训练。 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
LaMini-指令 | / | 对 | 英语 | 280 万条条目 | 从 flan 集合、p3 和自我指导中提取的数据集。 |
超级聊天 | / | 对话 | 英语 | 157 万个对话框 | 使用两个 ChatGPT 创建的大规模对话数据集,其中一个充当用户,另一个生成响应。 |
分享GPT_ 骆马毛_未过滤 | 骆驼毛 | 对 | 多种语言 | 53K 条目 | 清理 ShareGPT 数据集。 |
pku-saferlhf-数据集 | 海狸 | RLHF | 英语 | 10K+1M | 第一个此类数据集,包含 10k 个具有安全偏好的实例。 |
RefGPT-数据集 非官方链接 | 参考GPT | 配对、对话 | 中国人 | 约 50K 条目 | 中文对话数据集旨在提高法学硕士事实的正确性(减轻法学硕士的幻觉)。 |
骆驼QA-A CoQA-中文 | 骆驼项目 | 语境 | 中国人 | 127K 个 QA 对 | 基于翻译后的 CoQA 构建的数据集。通过使用 OpenAI API 进行增强。 |
向导-LM-中文 指令进化 | 骆驼项目 | 对 | 中国人 | 约 70K 条目 | 中文版WizardLM 70K。通过在 OpenAI 的 GPT API 中提要翻译的问题来获得答案,然后获得回复。 |
羊驼_中文 数据集 | / | 对 | 中国人 | / | GPT-4翻译的羊驼数据包括一些补充数据(如中文诗歌、应用程序等)。经人工检查。 |
知乎KOL | 打开助手 | 对 | 中国人 | 1.5GB | QA 数据来自中国知名的知乎 QA 平台。 |
羊驼-GPT-4_zh-cn | / | 对 | 中国人 | 约 50K 条目 | 中国羊驼风格的数据集,由 GPT-4 生成,最初是中文,未翻译。 |
hh-rlhf 上拥抱脸 | 考拉 | RLHF | 英语 | 161k 对 79.3MB | 用于在强化学习中训练奖励模型的成对数据集,以提高语言模型的无害性和有用性。 |
Panther-dataset_v1 | 豹 | 对 | 英语 | 377 条记录 | 数据集来自 hh-rlhf。它将 hh-rlhf 重写为输入输出对的形式。 |
白泽数据集 | 白泽 | 对话 | 英语 | 100K 对话框 | GPT-4 使用自我对话生成的对话数据集。问题和主题是从 Quora、StackOverflow 和一些医学知识源收集的。 |
h2ogpt-fortune2000 个性化 | h2gpt | 对 | 英语 | 11363 条记录 | h2oai 开发的指令微调涵盖了各种主题。 |
小水电 | 马厩骆驼毛, 聊天选择, , 蒸汽SHP | RLHF | 英语 | 385K 条目 | RLHF数据集与前面提到的数据集不同,它使用分数+时间戳来推断用户的偏好。涵盖 18 个领域,由斯坦福大学收集。 |
ELI5 | 迷你LM系列 | 金融时报, RLHF | 英语 | 270K 条目 | 从 Reddit 收集的问题和解答,包括分数。可能用于 RLHF 奖励模型训练。 |
向导LM 进化指令 V2 | 向导LM | 对 | 英语 | 使用本文的进化方法从 Alpaca-52K 导出的指令微调数据集 | |
MOSS SFT 数据 | 苔藓 | 对, 对话 | 中文、英文 | 110 万条条目 | MOSS 团队收集和开发的会话数据集。它为每个数据条目都贴上了有用、忠诚和无害的标签。 |
分享GPT52K | 考拉,稳定的法学硕士 | 对 | 多种语言 | 52K | 该数据集包含从 ShareGPT 收集的对话,特别关注定制的创意对话。 |
GPT-4all 数据集 | GPT-4all | 对 | 英语, 可能有 翻译版本 | 40 万条条目 | OIG、P3 和 Stackoverflow 的一些子集的组合。涵盖一般 QA、定制创意问题等主题。 |
科伊格 | / | 对 | 中国人, 代码 | 20 万条条目 | 基于中文的数据集。它包含通用 QA、中文考试、代码等领域。其质量由人工注释者检查。 |
红色睡衣-Data-1T | 红色睡衣 | PT | 主要是英语 | 1.2T代币 5TB | 完全开放的预训练数据集遵循 LLaMA 的方法。 |
OAST1 | 打开助手 | 对, 对话 | 多种语言 (英语、西班牙语等) | 66,497 个对话树 | 一个大型的、人工编写、人工注释的高质量对话数据集。它的目的是让LLM产生更自然的反应。 |
羊驼毛-COT | 凤凰 | 对, 对话, 钴酸甲酯 | 英语 | / | 混合了许多数据集,如经典的 Alpaca 数据集、OIG、Guanaco 和一些 CoT(思想链)数据集,如 FLAN-CoT。使用起来可能会很方便。 |
双峰-X | / | 对 | 多种语言 (52 种语言) | 每种语言 67K 个条目 | Alpaca和Dolly-15K的多语言版本。 |
databricks-dolly-15k zh-cn版本 | 多莉2.0 | 对 | 英语 | 15K+ 条目 | 人类编写的提示和响应的数据集,包含开放域问答、头脑风暴、总结等任务。 |
羊驼数据清理 | 一些类似羊驼毛/ LLaMA 的型号 | 对 | 英语 | / | Alpaca、GPT_LLM 和 GPteacher 的清理版本。 |
GPT-4-LLM数据集 | 一些类似羊驼毛的款式 | 对, RLHF | 英语, 中国人 | 英文、中文各52K条 9K 条目非自然指令 | 不是 GPT-4 使用的数据集!它由 GPT-4 和其他一些 LLM 生成,以实现更好的配对和 RLHF。它包括 RLHF 风格的指令数据和比较数据。 |
GP老师 | / | 对 | 英语 | 20k 条目 | 数据集包含 GPT-4 生成的目标,并包含许多与 Alpaca 数据集相同的种子任务,还添加了一些新任务,例如角色扮演。 |
HC3 | 考拉 | RLHF | 英语, 中国人 | 24322 英语 12853 中文 | 多域、人类与 ChatGPT 比较数据集。可用于奖励模型训练或 ChatGPT 检测器训练。 |
羊驼数据 下载 | 羊驼、ChatGLM-finetune-LoRA、考拉 | 对话, 对 | 英语 | 52K 条目 21.4MB | 由 text-davinci-003 生成的数据集,用于提高语言模型遵循人类指令的能力。 |
监察长办公室 OIG-小芯片2 | Pythia-Chat-Base-7B、GPT-NeoXT-Chat-Base-20B、考拉 | 对话, 对 | 英语, 代码 | 44M 条目 | 具有中等和高质量子集(OIG-small-chip2)的大型会话指令数据集,用于多任务学习。 |
聊天羊驼数据 | / | 对话, 对 | 英语, 中文版即将推出 | 10k 条目 39.5MB | 数据集旨在帮助研究人员开发多轮对话中遵循指令的模型。 |
指令狂野 | 巨聊 | 对 | 英语、中文 | 10K 场次 | 羊驼风格的数据集,但带有种子任务,来自 chatgpt 屏幕截图。 |
Firefly(流萤) | Firefly(流萤) | 对 | 中国人 | 110 万条条目 1.17GB | 中文指令调优数据集,包含 23 个任务的 110 万个人工编写的示例,但没有对话。 |
美女 0.5M版本 1M版本 2M版本 | BELLE系列,春华 | 对 | 中国人 | 共2.67B | 类似于羊驼数据的中文指令数据集,通过从种子任务生成答案而构建,但没有对话。 |
原驼数据集 | 原驼 | 对话, 对 | 英语, 中国人, 日本人 | 534,530 条记录 | 多语言指令数据集,用于增强语言模型在各种语言任务中的能力,例如自然语言理解和显式内容识别。 |
OpenAI WebGPT | WebGPT的奖励模型,Koala | RLHF | 英语 | 19,578 对 | WebGPT 论文中使用的数据集。用于训练 RLHF 中的奖励模型。 |
开放人工智能 总结 比较 | 考拉 | RLHF | 英语 | 约 93K 条目 420MB | 人类反馈数据集,有助于训练奖励模型。然后使用奖励模型来训练摘要模型以符合人类偏好。 |
自学 | / | 对 | 英语 | 82K 条目 | 使用众所周知的自指令方法生成的数据集 |
非自然指令 | / | 对 | 英语 | 240,670 个示例 | 早期尝试使用强大的模型(text-davinci-002)来生成数据。 |
xP3(和一些变体) | 布卢姆兹,mT0 | 对 | 多种语言, 代码 | 79M 条目 88GB | 用于提高语言模型泛化能力的指令数据集,类似于Natural Instruct 。 |
果馅饼V2 | / | / | 英语 | / | 数据集将 Flan 2021、P3、超自然指令以及其他数十个数据集编译为一个数据集,并将它们格式化为零样本、少样本和思维链模板的混合形式 |
自然教学 GitHub&下载 | TK-指令系列 | 对, 评估 | 多种语言 | / | 该基准包含超过 1,600 个带有指令和定义的任务,用于评估和改进自然语言指令下语言模型的多任务泛化能力。 |
克罗斯沃兹 | / | 对话 | 英语, 中国人 | 6K 对话 | 本文引入的数据集主要是关于北京旅游主题的数据集,答案是通过规则自动生成的。 |
我们将行项目视为主题。
监察长办公室 | hh-rlhf | xP3 | 自然指导 | 羊驼数据清理 | GPT-4-法学硕士 | 羊驼毛CoT | |
---|---|---|---|---|---|---|---|
监察长办公室 | / | 包含 | 重叠 | 重叠 | 重叠 | 重叠 | |
hh-rlhf | 的一部分 | / | 重叠 | ||||
xP3 | 重叠 | / | 重叠 | 重叠 | |||
自然指导 | 重叠 | 重叠 | / | 重叠 | |||
羊驼数据清理 | 重叠 | / | 重叠 | 重叠 | |||
GPT-4-法学硕士 | 重叠 | / | 重叠 | ||||
羊驼毛CoT | 重叠 | 重叠 | 重叠 | 重叠 | 重叠 | 重叠 | / |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
证明桩 | 证明-GPT | PT | 英语 乳胶 | 13GB | 一个类似于pile的预训练数据集,但有LaTeX语料库,以增强LM的证明能力。 |
硫酸盐 | / | PT | 英语 | 7.5GB | 用于预训练的高质量学术论文数据集。 |
堆栈溢出 邮政 | / | PT | / | 35GB | Markdown 格式的原始 StackOverflow 数据,用于预训练。 |
修身睡衣 | / | PT | 主要是 英语 | / | RedPajama 的清理和重复数据删除版本 |
非MBVC | / | PT | 中国人 | / | 大规模、持续更新的中文预训练数据集。 |
falcon-refinedweb | 蒂尤埃/猎鹰系列 | PT | 英语 | / | CommonCrawl 的精致子集。 |
CBook-150K | / | PT, 构建数据集 | 中国人 | 15 万多本书 | 原始中文书籍数据集。需要一些预处理管道。 |
普通爬行 | LLaMA(经过一些处理) | 构建数据集, PT | / | / | 最著名的原始数据集,很少被直接使用。一种可能的预处理管道是 CCNet |
nlp_中文_语料库 | / | PT, TF | 中国人 | / | 中文预训练语料库。包括维基百科、百度百科、百度问答、一些论坛问答和新闻语料库。 |
桩 (V1) | GLM(部分)、LLaMA(部分)、GPT-J、GPT-NeoX-20B、Cerebras-GPT 6.7B、OPT-175b | PT | 多种语言, 代码 | 825GB | 一个多样化的开源语言建模数据集,由 22 个较小的高质量数据集组成,其中包括许多领域和任务。 |
C4 Huggingface 数据集 TensorFlow 数据集 | 谷歌 T5 系列,LLaMA | PT | 英语 | 305GB | Common Crawl 网络爬行语料库的庞大、干净版本。经常被使用。 |
根 | 盛开 | PT | 多种语言, 代码 | 1.6TB | 一个多样化的开源数据集,由用于语言建模的 Wikipedia 和 StackExchange 等子数据集组成。 |
PushshPairs 红迪特 纸 | OPT-175b | PT | / | / | 原始 Reddit 数据,本文中一种可能的处理流程 |
古腾堡计划 | 骆驼 | PT | 多种语言 | / | 书籍数据集,主要是小说。不进行预处理。 |
线索语料库 | / | PT, 微调, 评估 | 中国人 | 100GB | 来自Common Crawl的中文预训练语料库。 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
星码数据 | 星编码器 系列 | PT | 代码 | 783GB | 用于提高 LM 编码能力的大型预训练数据集。 |
代码_ 指示 _120k_羊驼毛 | / | 对 | 英文/代码 | 121,959 条记录 | 指令微调格式的 code_instruction。 |
功能- 调用次数-25k | 一些MPT 变体 | 对 | 英文代码 | 25K 条目 | 数据集旨在教导 AI 模型如何根据自然语言提示正确调用 APIsGuru 函数。 |
定理QA | / | 对 | 英语 | 800 | 高质量的 STEM 定理 QA 数据集。 |
phi-1 | phi-1 | 对话 | 英语 | / | 使用Textbooks Are All You Need中的方法生成的数据集。它专注于数学和计算机科学问题。 |
金融自然语言处理 | 芬GPT | 原始数据 | 英语, 中国人 | / | 开源原始金融文本数据。包括新闻、社交媒体等。 |
PRM800K | 的一个变体 GPT-4 | 语境 | 英语 | 800K 条目 | 数学问题的过程监督数据集 |
微信数据 | 微信 | 对话 | 中国人 | 355733 条言论 | 用于训练心理健康聊天机器人的中国 SFT 数据集。 |
ChatGPT-越狱-提示 | / | / | 英语 | 文件大小 163KB | 提示绕过ChatGPT的安全规定。可用于探讨法学硕士的无害性 |
很棒的中国人 法律资源 | 拉维格PT | / | 中国人 | / | 法学硕士培训中国法律资料合集。 |
长格式 | / | 对 | 英语 | 23,700 个条目 | 旨在提高LLM长文本生成能力的数据集。 |
符号指令调整 | / | 对 | 英语, 代码 | 第796章 | 数据集专注于“符号”任务:例如 SQL 编码、数学计算等。 |
安全提示 | / | 仅评估 | 中国人 | 10 万条条目 | 中国安全提示评估和提高法学硕士的安全性。 |
貘清理 | / | 对 | 英语, | 116k 条目 | 这是 PairsTT 规则的 DAISLab 数据集的修订版本,已彻底清理、评分和调整,用于指令调整 |
教学_ 代码searchnet_python | / | 对 | 英语 & Python | 192MB | 该数据集是模板生成的教学性 Python 数据集,是根据 Open-Assistant 项目的 code-search-net 数据集的带注释版本生成的。 |
金融-羊驼 | / | 对 | 英语 | 1.3K 条目 | 羊驼风格的数据集,但专注于金融主题 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
分享GPT4V | / | 图像提示标题 | 英语 | 120 万个实例 | 一组 GPT4-Vision 支持的多模式字幕数据。 |
奥贝力克斯 | 意识形态 系列 | 图像文档 | 英语 | 141M 文档 | 一个开放的、大量的、精心策划的交错图像文本 Web 文档集合。 |
旅程数据库 | / | 图像提示标题 | 英语 | 400万个实例 | 大规模数据集包括基于中途图像的 QA、标题和文本提示任务。 |
M3IT | 英-VLM | 指令图像 | 多种语言 | 240 万个实例 | 数据集包含 40 个任务和 400 条人工书面指令。 |
模仿IT | 獭 | 指令图像 | 多语言 | 220 万个实例 | 基于图像和视频的高质量多模式指令响应对。 |
拉瓦指令 | 拉瓦 | 指令图像 | 英语 | 158k 样本 | 通过提示 GPT-4 获取指令,在 COCO 数据集上生成的多模态数据集。 |
数据集名称 | 使用者 | 类型 | 语言 | 尺寸 | 说明️ |
---|---|---|---|---|---|
网络文本(Reddit 链接) | GPT-2 | PT | 英语 | / | 数据从 Reddit 爬取并过滤以进行 GPT-2 预训练。 |
海量文本 | 地鼠、龙猫 | PT | 99% 英语,1% 其他(包括代码) | ||
悟道语料库 | 广义线性模型 | PT | 中国人 | 200GB | 大规模中文语料库,可能的组件原本是开源的,但现在不可用。 |