instruction datasets下载 - instruction datasets源代码下载

instruction datasets

其他源码

1.0.0

下载

指令调优数据集

用于大型语言模型指令调优的所有可用数据集

黄金标准数据集

P3：https://github.com/bigscience-workshop/promptsource，https://huggingface.co/datasets/bigscience/P3
- 涵盖多种 NLP 任务的提示英语数据集集合
- 2000 种提示类型超过 270 个数据集
xP3：https://huggingface.co/datasets/bigscience/xP3mt
- 混合了 46 种语言的 13 项训练任务和 20 种语言的提示（英语机器翻译）
自然指令 v2：https://github.com/allenai/natural-instructions
- 1,616 个不同的 NLP 任务及其专家编写的指令的基准，涵盖 76 种不同的任务类型和 55 种不同的语言。
果馅饼集合：https://github.com/google-research/FLAN/tree/main/flan/v2
- 这里一些数据集的超集
- 1836 个任务，1500 万个示例
打开助手：https://huggingface.co/datasets/OpenAssistant/oasst1
- 人工注释的助手式对话语料库，包含 161,443 条消息，分布在 66,497 个对话树中，采用 35 种不同语言，注释有 461,292 个质量评级
LIMA：1K 高质量指令
- https://huggingface.co/datasets/GAIR/lima
databricks-dolly-15k：https://github.com/databrickslabs/dolly/tree/master/data
普雷斯托：https://github.com/google-research-datasets/presto
- 真人与虚拟助理之间的 550K 上下文多语言对话
BB3x：https://parl.ai/projects/bb3x/
指导CTG：https://github.com/MichaelZhouwang/InstructCTG
- 受控生成框架 https://arxiv.org/abs/2304.14293
交叉健身：https://github.com/INK-USC/CrossFit
任务来源：https://arxiv.org/abs/2301.05948
ExMix：https://arxiv.org/abs/2111.10952
指令评估：https://github.com/declare-lab/instruct-eval
M3IT：https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2.4M 多模式实例和 400 条指令，涵盖 40 种任务和 80 种语言
MIMIC-IT：多模式上下文指令调整：https://arxiv.org/abs/2306.05425
多指令：https://github.com/VT-NLP/MultiInstruct
牧羊犬：https://github.com/princeton-nlp/Collie
Mind2Web：迈向网络通才代理 https://osu-nlp-group.github.io/Mind2Web/
Android in the Wild：用于 Android 设备控制的大规模数据集：https://github.com/google-research/google-research/tree/master/android_in_the_wild
FLASK：基于对齐技能集的细粒度语言模型评估 https://github.com/kaistAI/FLASK
安全-RLHF：https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
HelpSteer：https://huggingface.co/datasets/nvidia/HelpSteer

银标准/使用 LM 生成

自学：https://github.com/yizhongw/self-instruct
非自然指令：https://github.com/orhonovich/unnatural-instructions
羊驼毛：https://huggingface.co/datasets/tatsu-lab/alpaca
- 羊驼清洁：https://github.com/gururise/AlpacaDataCleaned
代码羊驼：https://github.com/sahil280114/codealpaca
AlpacaGPT3.5定制：https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5定制
GPT4All：https://github.com/nomic-ai/gpt4all
- GPT4All 修剪：https://huggingface.co/datasets/Nebulous/gpt4all_pruned
ShareGPT：https://huggingface.co/datasets/RyokoAI/ShareGPT52K
GPteacher：https://github.com/teknium1/GPteacher
骆驼？：https://www.camel-ai.org/
人类 ChatGPT 比较语料库：https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
指令狂野：https://github.com/XueFuzhao/InstructionWild
使用 GPT-4 进行指令调整：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
原驼：https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
LongForm 数据集：https://github.com/akoksal/LongForm/tree/main/dataset
- 针对不同语料库样本集（27,739 条指令和长文本对）生成 LLM 指令
UltraChat：https://huggingface.co/datasets/stingning/ultrachat
LLaVA 视觉指导 150K：https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- GPT 生成的多模式指令跟随数据
GPT4Tools：https://github.com/StevenGrove/GPT4Tools
- 用于对多个多模式模型进行 API 调用的指令数据
LaMini-指令：https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 258万对指令和响应
Evol-Instruct 70k：https://github.com/nlpxucan/WizardLM
恐龙：https://dynosaur-it.github.io/
羊驼农场：https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
ign_clean_instruct_dataset_500k：https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
airoboros：https://github.com/jondurbin/airoboros
UltraFeedback：https://huggingface.co/datasets/openbmb/UltraFeedback
WildChat：57 万个真实用户与 ChatGPT 交互的语料库 https://wildchat.allen.ai/
反馈收集：https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection

偏好数据集（可用于训练奖励模型）

HH-RLHF：https://huggingface.co/datasets/Anthropic/hh-rlhf
- 包含人类对模型输出的有害性和有用性的评级。该数据集包含约 16 万个人类评分的示例，其中该数据集中的每个示例都包含一对来自聊天机器人的响应，其中一个是人类首选的响应。
OpenAI WebGPT：https://huggingface.co/datasets/openai/webgpt_comparisons
- 总共包括大约 20K 的比较，其中每个示例都包含一个问题、一对模型答案和元数据。答案由人类根据偏好分数进行评分。
OpenAI 总结：https://huggingface.co/datasets/openai/summarize_from_feedback
- 包含约 93K 个示例，每个示例都包含人类关于模型生成的摘要的反馈。人类评估者从两个选项中选择了更好的摘要。
斯坦福人类偏好数据集（SHP）：https://huggingface.co/datasets/stanfordnlp/SHP
- 385K 人类对 18 个不同主题领域的问题/说明的集体偏好
堆栈交换首选项：https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
SLF5K：https://huggingface.co/datasets/JeremyAlain/SLF5K
qa-from-hf：https://github.com/lil-lab/qa-from-hf
花蜜：https://huggingface.co/datasets/berkeley-nest/Nectar
JudgeLM-100K：https://huggingface.co/datasets/BAAI/JudgeLM-100K
UltraFeedback：https://huggingface.co/datasets/openbmb/UltraFeedback

杂项

OIG：https://huggingface.co/datasets/laion/OIG
- 这里一些数据集的超集
oa_leet10k：https://huggingface.co/datasets/ehartford/oa_leet10k
- LeetCode 多种编程语言解决的问题
ProSocial 对话：https://huggingface.co/datasets/allenai/prosocial-dialog
ConvoKit：https://convokit.cornell.edu/documentation/datasets.html
CoT-Collection：https://github.com/kaist-lklab/CoT-Collection
DialogStudio：https://github.com/salesforce/DialogStudio
聊天机器人竞技场对话 https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
lmsys 1M：https://huggingface.co/datasets/lmsys/lmsys-chat-1m
对话编年史：https://conversation-chronicles.github.io/

展开

附加信息