中文(简体)
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
网站地图大全
最新更新
首页
源码下载
编程相关
建站资源
网页设计教程
网络编程教程
首页
>
编程相关
>
其他源码
instruction datasets
其他源码
1.0.0
下载
指令调优数据集
用于大型语言模型指令调优的所有可用数据集
黄金标准数据集
P3:https://github.com/bigscience-workshop/promptsource,https://huggingface.co/datasets/bigscience/P3
涵盖多种 NLP 任务的提示英语数据集集合
2000 种提示类型超过 270 个数据集
xP3:https://huggingface.co/datasets/bigscience/xP3mt
混合了 46 种语言的 13 项训练任务和 20 种语言的提示(英语机器翻译)
自然指令 v2:https://github.com/allenai/natural-instructions
1,616 个不同的 NLP 任务及其专家编写的指令的基准,涵盖 76 种不同的任务类型和 55 种不同的语言。
果馅饼集合:https://github.com/google-research/FLAN/tree/main/flan/v2
这里一些数据集的超集
1836 个任务,1500 万个示例
打开助手:https://huggingface.co/datasets/OpenAssistant/oasst1
人工注释的助手式对话语料库,包含 161,443 条消息,分布在 66,497 个对话树中,采用 35 种不同语言,注释有 461,292 个质量评级
LIMA:1K 高质量指令
https://huggingface.co/datasets/GAIR/lima
databricks-dolly-15k:https://github.com/databrickslabs/dolly/tree/master/data
普雷斯托:https://github.com/google-research-datasets/presto
真人与虚拟助理之间的 550K 上下文多语言对话
BB3x:https://parl.ai/projects/bb3x/
指导CTG:https://github.com/MichaelZhouwang/InstructCTG
受控生成框架 https://arxiv.org/abs/2304.14293
交叉健身:https://github.com/INK-USC/CrossFit
任务来源:https://arxiv.org/abs/2301.05948
ExMix:https://arxiv.org/abs/2111.10952
指令评估:https://github.com/declare-lab/instruct-eval
M3IT:https://huggingface.co/datasets/MMInstruction/M3IT
https://arxiv.org/abs/2306.04387
2.4M 多模式实例和 400 条指令,涵盖 40 种任务和 80 种语言
MIMIC-IT:多模式上下文指令调整:https://arxiv.org/abs/2306.05425
多指令:https://github.com/VT-NLP/MultiInstruct
牧羊犬:https://github.com/princeton-nlp/Collie
Mind2Web:迈向网络通才代理 https://osu-nlp-group.github.io/Mind2Web/
Android in the Wild:用于 Android 设备控制的大规模数据集:https://github.com/google-research/google-research/tree/master/android_in_the_wild
FLASK:基于对齐技能集的细粒度语言模型评估 https://github.com/kaistAI/FLASK
安全-RLHF:https://arxiv.org/abs/2310.12773
https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
HelpSteer:https://huggingface.co/datasets/nvidia/HelpSteer
银标准/使用 LM 生成
自学:https://github.com/yizhongw/self-instruct
非自然指令:https://github.com/orhonovich/unnatural-instructions
羊驼毛:https://huggingface.co/datasets/tatsu-lab/alpaca
羊驼清洁:https://github.com/gururise/AlpacaDataCleaned
代码羊驼:https://github.com/sahil280114/codealpaca
AlpacaGPT3.5定制:https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5定制
GPT4All:https://github.com/nomic-ai/gpt4all
GPT4All 修剪:https://huggingface.co/datasets/Nebulous/gpt4all_pruned
ShareGPT:https://huggingface.co/datasets/RyokoAI/ShareGPT52K
GPteacher:https://github.com/teknium1/GPteacher
骆驼?:https://www.camel-ai.org/
人类 ChatGPT 比较语料库:https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
指令狂野:https://github.com/XueFuzhao/InstructionWild
使用 GPT-4 进行指令调整:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
原驼:https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
LongForm 数据集:https://github.com/akoksal/LongForm/tree/main/dataset
针对不同语料库样本集(27,739 条指令和长文本对)生成 LLM 指令
UltraChat:https://huggingface.co/datasets/stingning/ultrachat
LLaVA 视觉指导 150K:https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
GPT 生成的多模式指令跟随数据
GPT4Tools:https://github.com/StevenGrove/GPT4Tools
用于对多个多模式模型进行 API 调用的指令数据
LaMini-指令:https://huggingface.co/datasets/MBZUAI/LaMini-instruction
258万对指令和响应
Evol-Instruct 70k:https://github.com/nlpxucan/WizardLM
恐龙:https://dynosaur-it.github.io/
羊驼农场:https://github.com/tatsu-lab/alpaca_farm
https://huggingface.co/datasets/tatsu-lab/alpaca_farm
ign_clean_instruct_dataset_500k:https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
airoboros:https://github.com/jondurbin/airoboros
UltraFeedback:https://huggingface.co/datasets/openbmb/UltraFeedback
WildChat:57 万个真实用户与 ChatGPT 交互的语料库 https://wildchat.allen.ai/
反馈收集:https://arxiv.org/abs/2310.08491
https://huggingface.co/datasets/kaist-ai/Feedback-Collection
偏好数据集(可用于训练奖励模型)
HH-RLHF:https://huggingface.co/datasets/Anthropic/hh-rlhf
包含人类对模型输出的有害性和有用性的评级。该数据集包含约 16 万个人类评分的示例,其中该数据集中的每个示例都包含一对来自聊天机器人的响应,其中一个是人类首选的响应。
OpenAI WebGPT:https://huggingface.co/datasets/openai/webgpt_comparisons
总共包括大约 20K 的比较,其中每个示例都包含一个问题、一对模型答案和元数据。答案由人类根据偏好分数进行评分。
OpenAI 总结:https://huggingface.co/datasets/openai/summarize_from_feedback
包含约 93K 个示例,每个示例都包含人类关于模型生成的摘要的反馈。人类评估者从两个选项中选择了更好的摘要。
斯坦福人类偏好数据集(SHP):https://huggingface.co/datasets/stanfordnlp/SHP
385K 人类对 18 个不同主题领域的问题/说明的集体偏好
堆栈交换首选项:https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
SLF5K:https://huggingface.co/datasets/JeremyAlain/SLF5K
qa-from-hf:https://github.com/lil-lab/qa-from-hf
花蜜:https://huggingface.co/datasets/berkeley-nest/Nectar
JudgeLM-100K:https://huggingface.co/datasets/BAAI/JudgeLM-100K
UltraFeedback:https://huggingface.co/datasets/openbmb/UltraFeedback
杂项
OIG:https://huggingface.co/datasets/laion/OIG
这里一些数据集的超集
oa_leet10k:https://huggingface.co/datasets/ehartford/oa_leet10k
LeetCode 多种编程语言解决的问题
ProSocial 对话:https://huggingface.co/datasets/allenai/prosocial-dialog
ConvoKit:https://convokit.cornell.edu/documentation/datasets.html
CoT-Collection:https://github.com/kaist-lklab/CoT-Collection
DialogStudio:https://github.com/salesforce/DialogStudio
聊天机器人竞技场对话 https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
lmsys 1M:https://huggingface.co/datasets/lmsys/lmsys-chat-1m
对话编年史:https://conversation-chronicles.github.io/
展开
附加信息
版本
1.0.0
类型
其他源码
更新时间
2024-12-21
大小
3.09KB
来自于
Github
相关应用
GitHub sgrebnov/cordova plugin background download
2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings
2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home
2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home
2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p
2024-11-01
GitHub actions/download artifact
2024-11-01
为您推荐
chat.petals.dev
其他源码
1.0.0
GPT Prompt Templates
其他源码
1.0.0
GPTyped
其他源码
GPTyped 1.0.5
waymo open dataset
其他源码
December 2023 Update
SmartTube
其他源码
24.71 Stable
Sunamu
其他源码
Release 2.2.0
wp functions
其他类别
1.0.0
waymo open dataset
其他源码
December 2023 Update
slugify
其他类别
Version 4.6.0 (10 September 2024)
相关资讯
全部
如何开始《星球大战:亡命徒》中的外卡扩展
2024-11-23
如何在《Madden 25》中完成 Saquon Barkley 旋转跨栏
2024-11-21
如何在 Slap Battles 中获得伤害我徽章
2024-11-21
如何开始米斯特里亚原野的流星节
2024-11-20
如何在《龙腾世纪:面纱守卫》中获得最佳结局
2024-11-22
崩坏星轨下一个横幅和当前横幅,崩坏星轨中所有横幅的列表
2024-11-22
如何获得 PLS DONATE x 塔防模拟器活动中的所有奖励
2024-11-17
如何制作《黑色行动 6》第 1 季中的人体模型 Nuketown 复活节彩蛋
2024-11-15
《大金刚之国度 2》的新秘籍在几十年后被发现
2024-11-10
如何在《黑色行动 6》(BO6) 中用烟雾弹击杀并解锁钝器创伤名片
2024-11-11
2024 年 11 月的 Zenless Zone 零代码以及如何兑换它们
2024-11-02
FF14陆行鸟怎么获得 FF14陆行鸟获得 方法分享
2023-10-31