中文(繁体)
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
網站地圖大全
最新更新
首頁
源碼下載
編程相關
建站資源
網頁設計教程
網絡編程教程
首頁
>
編程相關
>
其他源碼
instruction datasets
其他源碼
1.0.0
下載
指令調優資料集
用於大型語言模型指令調優的所有可用資料集
黃金標準資料集
P3:https://github.com/bigscience-workshop/promptsource,https://huggingface.co/datasets/bigscience/P3
涵蓋多種 NLP 任務的提示英語資料集集合
2000 種提示類型超過 270 個資料集
xP3:https://huggingface.co/datasets/bigscience/xP3mt
混合了 46 種語言的 13 個訓練任務和 20 種語言的提示(英語機器翻譯)
自然指令 v2:https://github.com/allenai/natural-instructions
1,616 個不同的 NLP 任務及其專家編寫的指令的基準,涵蓋 76 種不同的任務類型和 55 種不同的語言。
水果餡餅集合:https://github.com/google-research/FLAN/tree/main/flan/v2
這裡一些資料集的超集
1836 個任務,1500 萬個範例
開啟助手:https://huggingface.co/datasets/OpenAssistant/oasst1
人工註釋的助手式對話語料庫,包含 161,443 條訊息,分佈在 66,497 個對話樹中,採用 35 種不同語言,註釋有 461,292 個品質評級
LIMA:1K 高品質指令
https://huggingface.co/datasets/GAIR/lima
databricks-dolly-15k:https://github.com/databrickslabs/dolly/tree/master/data
普雷斯托:https://github.com/google-research-datasets/presto
人類和虛擬助理之間的 55 萬個上下文多語言對話
BB3x:https://parl.ai/projects/bb3x/
指導CTG:https://github.com/MichaelZhouwang/InstructCTG
受控生成框架 https://arxiv.org/abs/2304.14293
交叉健身:https://github.com/INK-USC/CrossFit
任務來源:https://arxiv.org/abs/2301.05948
ExMix:https://arxiv.org/abs/2111.10952
指令評估:https://github.com/declare-lab/instruct-eval
M3IT:https://huggingface.co/datasets/MMInstruction/M3IT
https://arxiv.org/abs/2306.04387
2.4M 多模式實例和 400 個指令,涵蓋 40 個任務和 80 種語言
MIMIC-IT:多模式上下文指令調整:https://arxiv.org/abs/2306.05425
多重指令:https://github.com/VT-NLP/MultiInstruct
牧羊犬:https://github.com/princeton-nlp/Collie
Mind2Web:邁向網路通才代理程式 https://osu-nlp-group.github.io/Mind2Web/
Android in the Wild:用於 Android 裝置控制的大規模資料集:https://github.com/google-research/google-research/tree/master/android_in_the_wild
FLASK:基於對齊技能集的細粒度語言模型評估 https://github.com/kaistAI/FLASK
安全-RLHF:https://arxiv.org/abs/2310.12773
https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
HelpSteer:https://huggingface.co/datasets/nvidia/HelpSteer
銀標準/使用 LM 生成
自學:https://github.com/yizhongw/self-instruct
非自然指令:https://github.com/orhonovich/unnatural-instructions
羊駝毛:https://huggingface.co/datasets/tatsu-lab/alpaca
羊駝清潔:https://github.com/gururise/AlpacaDataCleaned
代碼羊駝:https://github.com/sahil280114/codealpaca
AlpacaGPT3.5客製化:https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5客製化
GPT4All:https://github.com/nomic-ai/gpt4all
GPT4All 修剪:https://huggingface.co/datasets/Nebulous/gpt4all_pruned
ShareGPT:https://huggingface.co/datasets/RyokoAI/ShareGPT52K
GPteacher:https://github.com/teknium1/GPteacher
駱駝?
人類 ChatGPT 比較語料庫:https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
指令狂野:https://github.com/XueFuzhao/InstructionWild
使用 GPT-4 進行指令調整:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
原駝:https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
LongForm 資料集:https://github.com/akoksal/LongForm/tree/main/dataset
針對不同語料庫樣本集(27,739 條指令和長文本對)產生 LLM 指令
UltraChat:https://huggingface.co/datasets/stingning/ultrachat
LLaVA 視覺指導 150K:https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
GPT 產生的多模式指令跟隨數據
GPT4Tools:https://github.com/StevenGrove/GPT4Tools
用於對多個多模式模型進行 API 呼叫的指令數據
LaMini-指令:https://huggingface.co/datasets/MBZUAI/LaMini-instruction
258萬對指令與回應
Evol-Instruct 70k:https://github.com/nlpxucan/WizardLM
恐龍:https://dynosaur-it.github.io/
羊駝農場:https://github.com/tatsu-lab/alpaca_farm
https://huggingface.co/datasets/tatsu-lab/alpaca_farm
ign_clean_instruct_dataset_500k:https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
airoboros:https://github.com/jondurbin/airoboros
UltraFeedback:https://huggingface.co/datasets/openbmb/UltraFeedback
WildChat:57 萬個真實使用者與 ChatGPT 互動的語料庫 https://wildchat.allen.ai/
回饋收集:https://arxiv.org/abs/2310.08491
https://huggingface.co/datasets/kaist-ai/Feedback-Collection
偏好資料集(可用於訓練獎勵模型)
HH-RLHF:https://huggingface.co/datasets/Anthropic/hh-rlhf
包含人類對模型輸出的有害性和有用性的評級。該資料集包含約 16 萬人類別評分的範例,其中該資料集中的每個範例都包含一對來自聊天機器人的回應,其中一個是人類首選的回應。
OpenAI WebGPT:https://huggingface.co/datasets/openai/webgpt_comparisons
總共包括大約 20K 的比較,其中每個範例都包含一個問題、一對模型答案和元資料。答案由人類根據偏好分數進行評分。
OpenAI 總結:https://huggingface.co/datasets/openai/summarize_from_feedback
包含約 93K 個範例,每個範例都包含人類關於模型生成的摘要的回饋。人類評估者從兩個選項中選擇了更好的摘要。
史丹佛人類偏好資料集(SHP):https://huggingface.co/datasets/stanfordnlp/SHP
385K 人類對 18 個不同主題領域的問題/說明的集體偏好
堆疊交換首選項:https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
SLF5K:https://huggingface.co/datasets/JeremyAlain/SLF5K
qa-from-hf:https://github.com/lil-lab/qa-from-hf
花蜜:https://huggingface.co/datasets/berkeley-nest/Nectar
JudgeLM-100K:https://huggingface.co/datasets/BAAI/JudgeLM-100K
UltraFeedback:https://huggingface.co/datasets/openbmb/UltraFeedback
雜項
OIG:https://huggingface.co/datasets/laion/OIG
這裡一些資料集的超集
oa_leet10k:https://huggingface.co/datasets/ehartford/oa_leet10k
LeetCode 多種程式語言解決的問題
ProSocial 對話:https://huggingface.co/datasets/allenai/prosocial-dialog
ConvoKit:https://convokit.cornell.edu/documentation/datasets.html
CoT-Collection:https://github.com/kaist-lklab/CoT-Collection
DialogStudio:https://github.com/salesforce/DialogStudio
聊天機器人競技場對話 https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
lmsys 1M:https://huggingface.co/datasets/lmsys/lmsys-chat-1m
對話編年史:https://conversation-chronicles.github.io/
展開
附加信息
版本
1.0.0
類型
其他源碼
更新時間
2024-12-21
大小
3.09KB
來自於
Github
相關應用
GitHub sgrebnov/cordova plugin background download
2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings
2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home
2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home
2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p
2024-11-01
GitHub actions/download artifact
2024-11-01
爲您推薦
chat.petals.dev
其他源碼
1.0.0
GPT Prompt Templates
其他源碼
1.0.0
GPTyped
其他源碼
GPTyped 1.0.5
waymo open dataset
其他源碼
December 2023 Update
Sunamu
其他源碼
Release 2.2.0
SmartTube
其他源碼
24.71 Stable
wp functions
其他類別
1.0.0
waymo open dataset
其他源碼
December 2023 Update
slugify
其他類別
Version 4.6.0 (10 September 2024)
相關資訊
全部
如何開始《星際大戰:亡命徒》中的外卡擴展
2024-11-23
如何在《Madden 25》中完成 Saquon Barkley 旋轉跨欄
2024-11-21
如何在 Slap Battles 中獲得傷害我徽章
2024-11-21
如何開始米斯特里亞原野的流星節
2024-11-20
如何在《龍騰世紀:面紗守衛》中獲得最佳結局
2024-11-22
崩壞星軌下一個橫幅和當前橫幅,崩壞星軌中所有橫幅的列表
2024-11-22
如何獲得 PLS DONATE x 塔防模擬器活動中的所有獎勵
2024-11-17
如何製作《黑色行動 6》第 1 季中的人體模型 Nuketown 復活節彩蛋
2024-11-15
《金剛之國度 2》的新秘籍在幾十年後被發現
2024-11-10
如何在《黑色行動 6》(BO6) 中用煙霧彈擊殺並解鎖鈍器創傷名片
2024-11-11
2024 年 11 月的 Zenless Zone 零代碼以及如何兌換它們
2024-11-02
FF14陸行鳥怎麼獲得FF14陸行鳥獲得方法分享
2023-10-31