开源指令调优数据集、模型、论文、存储库的精选列表。
继 Longpre 等人之后,我们列出了所有从传统 NLP 任务修改而来的现有指令调优数据集。
发布 | 数据集 | 任务数量 | 实例数 | 型号_名称 | 根据 | 型号_尺寸 |
---|---|---|---|---|---|---|
2020-05 | 统一质量保证 | 46 | 75万 | 统一质量保证 | 罗伯塔 | 110-340米 |
2021年4月 | 综合健身 | 159 | 71.M | BART 综合健身 | 捷运 | 140M |
2021年4月 | 自然研究所 v1.0 | 61 | 62万 | 捷运将军 | 捷运 | 140M |
2021年9月 | 果馅饼 2021 | 62 | 4.4M | 弗兰-LaMDA | 拉MDA | 137B |
2021年10月 | P3 | 62 | 12M | 至、至+、至++ | T5-LM | 3-11B |
2021年10月 | 金属CL | 142 | 3.5M | 金属CL | GPT-2 | 770米 |
2021年11月 | 混合型 | 107 | 500k | ExT5 | T5 | 220M-11B |
2022年4月 | 超自然研究所。 | 1613 | 5M | Tk-指导 | T5-LM、mT5 | 17-13B |
2022年10月 | 广义线性模型 | 77 | 12M | GLM-130B | 广义线性模型 | 130乙 |
2022年10月 | 果馅饼 2022 | 1836年 | 15M | 馅饼-T5、馅饼-PaLM | T5-LM、PaLM | 10 M-540 B |
2022年11月 | xP3 | 71 | 81M | 布卢姆兹,mTO | 布卢姆,mT5 | 13-176B |
2022年12月 | 非自然研究所。 | 117 | 64k | T5-LM-Unnat。研究所。 | T5-LM | 11B |
发布 | 型号_名称 | 根据 | 型号_尺寸 | 数据集 | 实例数 | 语言 |
---|---|---|---|---|---|---|
2022年12月 | GPT-3 自我安装 | GPT-3 | 175B | 自学 | 82k | 恩 |
2023-03-03 | 羊驼毛 | 骆驼 | 7B | 羊驼数据 | 52k | 恩 |
2023-03-19 | 羊驼-洛拉 | 骆驼 | 7B 13B 30B | alpaca_data、alpaca_data_cleaned | 52k | 恩 |
2023-03-23 | 中国骆驼毛 | 骆驼 | 7B 13B | BELLE、Guanaco数据集 | 1M | Zh |
2023-03-24 | 羊驼毛CoT | 骆驼 | 7B | 数据集 | ---- | 恩智 |
2023-03-25 | 多莉 | 多莉 | 6B | 羊驼数据 | 52k | 恩 |
2023-03-25 | 原驼 | 骆驼 | 7B | 原驼数据集 | 534k | 恩智加德 |
2023-03-28 | 中国-美洲驼-羊驼 | 骆驼 | 7B | alpaca_data_zh、pCLUE、translation2019zh、alpaca_data、自学 | 2M | Zh |
2023-03-29 | 巨聊 | 骆驼 | 7B 13B | 指令狂野 | 104k | 恩智 |
2023-03-31 | 骆驼 | 骆驼聊天GLM | 7B 6B | trans_chinese_alpaca_data | 52k | Zh |
2023-03-31 | 大脑-劳拉-羊驼 | Cerebras-GPT | 2.7B | 羊驼数据清理 | 52k | 恩 |
大多数现有数据集都是英文的。然而,世界上大多数人口在其语言数据的可用性方面得不到充分服务。如何确保世界各地的每个人都能从生成式人工智能中受益?我们开发了一个基于 Helsinki-NLP 的简单且开源的翻译工具,能够免费将英语数据集翻译成 100 多种语言。尽管这些翻译后的数据集可能包含一些噪音,但它们可以作为昂贵的高质量数据的可行替代方案。见下文。
python translator.py model_name source_data_path
python translator.py Helsinki-NLP/opus-mt-en-zh alpaca_data.json
我们的工具设计用于处理羊驼数据和 Helsinki-NLP/opus-mt-en-zh 模型。不同的数据集或赫尔辛基自然语言处理模型会产生不同的结果。由于模型的局限性,受到模型能力的约束,翻译质量可能并不总是最优的。例如,我们观察到英汉翻译中存在重复单词的情况,这促使我们开发“process.py”来消除包含连续出现三次的任意长度字符串的翻译提示。我们在“translated_alpaca_data.json”中提供最终版本。
python process.py unprocessed_data_path
python process.py translated_data.json
# Helsinki-NLP 模型可能有最大输入句子长度限制。对于超出限制的提示,我们在翻译前已将其丢弃。
我们广泛审查了该领域的论文,并在下面列出了最有价值的论文:
微调语言模型是零样本学习者2021.9
多任务提示训练实现零样本任务泛化2021.10
训练语言模型遵循人类反馈的指令2022.3
超自然指令:通过声明性指令对 1600 多个 NLP 任务进行泛化2022.4
通过检索增强进行无监督跨任务泛化2022.4
指令归纳:从几个例子到自然语言任务描述2022.5
扩展指令-微调语言模型2022.10
猜猜指令!翻转学习让语言模型变得更强零样本学习者2022.10
非自然指令:在(几乎)无需人工的情况下调整语言模型2022.12
使用组合任务配置改进统一表到文本模型的跨任务泛化2022.12
自指导:将语言模型与自生成指令对齐2022.12
MultiInstruct:通过指令调优改进多模态零样本学习2022.12
Flan Collection:有效指令调优的数据和方法设计2023.1
情境教学学习2023.2
此外,我们还提供了相关存储库的列表以供进一步参考。
很棒的指令学习
很棒的指令数据集
ICL_纸张列表
情境提示式学习
LM推理
法学硕士推理论文
思想链论文
开放式ICL