instruction datasets下載 - instruction datasets原始碼下載

中文(繁体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首頁>編程相關>其他源碼

instruction datasets

其他源碼

1.0.0

下載

指令調優資料集

用於大型語言模型指令調優的所有可用資料集

黃金標準資料集

P3：https://github.com/bigscience-workshop/promptsource，https://huggingface.co/datasets/bigscience/P3
- 涵蓋多種 NLP 任務的提示英語資料集集合
- 2000 種提示類型超過 270 個資料集
xP3：https://huggingface.co/datasets/bigscience/xP3mt
- 混合了 46 種語言的 13 個訓練任務和 20 種語言的提示（英語機器翻譯）
自然指令 v2：https://github.com/allenai/natural-instructions
- 1,616 個不同的 NLP 任務及其專家編寫的指令的基準，涵蓋 76 種不同的任務類型和 55 種不同的語言。
水果餡餅集合：https://github.com/google-research/FLAN/tree/main/flan/v2
- 這裡一些資料集的超集
- 1836 個任務，1500 萬個範例
開啟助手：https://huggingface.co/datasets/OpenAssistant/oasst1
- 人工註釋的助手式對話語料庫，包含 161,443 條訊息，分佈在 66,497 個對話樹中，採用 35 種不同語言，註釋有 461,292 個品質評級
LIMA：1K 高品質指令
- https://huggingface.co/datasets/GAIR/lima
databricks-dolly-15k：https://github.com/databrickslabs/dolly/tree/master/data
普雷斯托：https://github.com/google-research-datasets/presto
- 人類和虛擬助理之間的 55 萬個上下文多語言對話
BB3x：https://parl.ai/projects/bb3x/
指導CTG：https://github.com/MichaelZhouwang/InstructCTG
- 受控生成框架 https://arxiv.org/abs/2304.14293
交叉健身：https://github.com/INK-USC/CrossFit
任務來源：https://arxiv.org/abs/2301.05948
ExMix：https://arxiv.org/abs/2111.10952
指令評估：https://github.com/declare-lab/instruct-eval
M3IT：https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2.4M 多模式實例和 400 個指令，涵蓋 40 個任務和 80 種語言
MIMIC-IT：多模式上下文指令調整：https://arxiv.org/abs/2306.05425
多重指令：https://github.com/VT-NLP/MultiInstruct
牧羊犬：https://github.com/princeton-nlp/Collie
Mind2Web：邁向網路通才代理程式 https://osu-nlp-group.github.io/Mind2Web/
Android in the Wild：用於 Android 裝置控制的大規模資料集：https://github.com/google-research/google-research/tree/master/android_in_the_wild
FLASK：基於對齊技能集的細粒度語言模型評估 https://github.com/kaistAI/FLASK
安全-RLHF：https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
HelpSteer：https://huggingface.co/datasets/nvidia/HelpSteer

銀標準/使用 LM 生成

自學：https://github.com/yizhongw/self-instruct
非自然指令：https://github.com/orhonovich/unnatural-instructions
羊駝毛：https://huggingface.co/datasets/tatsu-lab/alpaca
- 羊駝清潔：https://github.com/gururise/AlpacaDataCleaned
代碼羊駝：https://github.com/sahil280114/codealpaca
AlpacaGPT3.5客製化：https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5客製化
GPT4All：https://github.com/nomic-ai/gpt4all
- GPT4All 修剪：https://huggingface.co/datasets/Nebulous/gpt4all_pruned
ShareGPT：https://huggingface.co/datasets/RyokoAI/ShareGPT52K
GPteacher：https://github.com/teknium1/GPteacher
駱駝？
人類 ChatGPT 比較語料庫：https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
指令狂野：https://github.com/XueFuzhao/InstructionWild
使用 GPT-4 進行指令調整：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
原駝：https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
LongForm 資料集：https://github.com/akoksal/LongForm/tree/main/dataset
- 針對不同語料庫樣本集（27,739 條指令和長文本對）產生 LLM 指令
UltraChat：https://huggingface.co/datasets/stingning/ultrachat
LLaVA 視覺指導 150K：https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- GPT 產生的多模式指令跟隨數據
GPT4Tools：https://github.com/StevenGrove/GPT4Tools
- 用於對多個多模式模型進行 API 呼叫的指令數據
LaMini-指令：https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 258萬對指令與回應
Evol-Instruct 70k：https://github.com/nlpxucan/WizardLM
恐龍：https://dynosaur-it.github.io/
羊駝農場：https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
ign_clean_instruct_dataset_500k：https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
airoboros：https://github.com/jondurbin/airoboros
UltraFeedback：https://huggingface.co/datasets/openbmb/UltraFeedback
WildChat：57 萬個真實使用者與 ChatGPT 互動的語料庫 https://wildchat.allen.ai/
回饋收集：https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection

偏好資料集（可用於訓練獎勵模型）

HH-RLHF：https://huggingface.co/datasets/Anthropic/hh-rlhf
- 包含人類對模型輸出的有害性和有用性的評級。該資料集包含約 16 萬人類別評分的範例，其中該資料集中的每個範例都包含一對來自聊天機器人的回應，其中一個是人類首選的回應。
OpenAI WebGPT：https://huggingface.co/datasets/openai/webgpt_comparisons
- 總共包括大約 20K 的比較，其中每個範例都包含一個問題、一對模型答案和元資料。答案由人類根據偏好分數進行評分。
OpenAI 總結：https://huggingface.co/datasets/openai/summarize_from_feedback
- 包含約 93K 個範例，每個範例都包含人類關於模型生成的摘要的回饋。人類評估者從兩個選項中選擇了更好的摘要。
史丹佛人類偏好資料集（SHP）：https://huggingface.co/datasets/stanfordnlp/SHP
- 385K 人類對 18 個不同主題領域的問題/說明的集體偏好
堆疊交換首選項：https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
SLF5K：https://huggingface.co/datasets/JeremyAlain/SLF5K
qa-from-hf：https://github.com/lil-lab/qa-from-hf
花蜜：https://huggingface.co/datasets/berkeley-nest/Nectar
JudgeLM-100K：https://huggingface.co/datasets/BAAI/JudgeLM-100K
UltraFeedback：https://huggingface.co/datasets/openbmb/UltraFeedback

雜項

OIG：https://huggingface.co/datasets/laion/OIG
- 這裡一些資料集的超集
oa_leet10k：https://huggingface.co/datasets/ehartford/oa_leet10k
- LeetCode 多種程式語言解決的問題
ProSocial 對話：https://huggingface.co/datasets/allenai/prosocial-dialog
ConvoKit：https://convokit.cornell.edu/documentation/datasets.html
CoT-Collection：https://github.com/kaist-lklab/CoT-Collection
DialogStudio：https://github.com/salesforce/DialogStudio
聊天機器人競技場對話 https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
lmsys 1M：https://huggingface.co/datasets/lmsys/lmsys-chat-1m
對話編年史：https://conversation-chronicles.github.io/

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2024-12-21
大小 3.09KB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部