命令チューニングデータセット
大規模言語モデルの命令チューニングに利用可能なすべてのデータセット
ゴールドスタンダードのデータセット
- P3: https://github.com/bigscience-workshop/promptsource、https://huggingface.co/datasets/bigscience/P3
- さまざまな NLP タスクをカバーする、プロンプト付き英語データセットのコレクション
- 270 のデータセットにわたる 2,000 のプロンプト タイプ
- xP3: https://huggingface.co/datasets/bigscience/xP3mt
- 46 言語の 13 のトレーニング タスクと 20 言語のプロンプトの組み合わせ (英語から機械翻訳)
- Natural 手順 v2: https://github.com/allenai/natural-instructions
- 1,616 の多様な NLP タスクとその専門家が作成した指示のベンチマーク。76 の異なるタスク タイプと 55 の異なる言語をカバーします。
- Flan コレクション: https://github.com/google-research/FLAN/tree/main/flan/v2
- ここのいくつかのデータセットのスーパーセット
- 1,836 のタスク、1,500 万の例
- アシスタントを開く: https://huggingface.co/datasets/OpenAssistant/oasst1
- 人間による注釈付きアシスタント スタイルの会話コーパス。66,497 の会話ツリーに分散された 161,443 のメッセージで構成され、35 の異なる言語で、461,292 の品質評価の注釈が付けられています。
- LIMA: 1K 高品質の説明書
- https://huggingface.co/datasets/GAIR/lima
- databricks-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
- さきがけ: https://github.com/google-research-datasets/presto
- 人間と仮想アシスタントの間の 550K の状況に応じた多言語会話
- BB3x: https://parl.ai/projects/bb3x/
- InstructCTG: https://github.com/MichaelZhouwang/InstructCTG
- 制御された生成のためのフレームワーク https://arxiv.org/abs/2304.14293
- クロスフィット: https://github.com/INK-USC/CrossFit
- タスクソース: https://arxiv.org/abs/2301.05948
- ExMix: https://arxiv.org/abs/2111.10952
- InstructEval: https://github.com/declare-lab/instruct-eval
- M3IT: https://huggingface.co/datasets/MMstruct/M3IT
- https://arxiv.org/abs/2306.04387
- 240万のマルチモーダルインスタンスと40のタスクと80の言語にわたる400の命令
- MIMIC-IT: マルチモーダル インコンテキスト命令チューニング: https://arxiv.org/abs/2306.05425
- MultiInstruct: https://github.com/VT-NLP/MultiInstruct
- コリー: https://github.com/princeton-nlp/Collie
- Mind2Web: Web のジェネラリスト エージェントを目指して https://osu-nlp-group.github.io/Mind2Web/
- Android in the Wild: Android デバイス制御用の大規模データセット: https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK: アライメントスキルセットに基づくきめ細かい言語モデルの評価 https://github.com/kaistAI/FLASK
- Safe-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- HelpSteer: https://huggingface.co/datasets/nvidia/HelpSteer
シルバー規格/LMを使用して生成
- 自己指導: https://github.com/yizhongw/self-instruct
- 不自然な手順: https://github.com/orhonovich/unnatural-instructions
- アルパカ:https://huggingface.co/datasets/ttsu-lab/alpaca
- Alpaca-Clean: https://github.com/gururise/AlpacaDataCleaned
- コードアルパカ: https://github.com/sahil280114/codealpaca
- AlpacaGPT3.5Customized: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Customized
- GPT4All: https://github.com/nomic-ai/gpt4all
- GPT4All-pruned: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- ShareGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- GPTeacher: https://github.com/teknium1/GPTeacher
- キャメル?: https://www.camel-ai.org/
- Human ChatGPT 比較コーパス: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- 命令ワイルド: https://github.com/XueFuzhao/命令ワイルド
- GPT-4 による命令チューニング: https://github.com/struction-tuning-with-GPT-4/GPT-4-LLM
- グアナコ: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- LongForm データセット: https://github.com/akoksal/LongForm/tree/main/dataset
- コーパス サンプルの多様なセットに対する LLM 命令生成 (27,739 の命令と長いテキストのペア)
- UltraChat: https://huggingface.co/datasets/stingning/ultrachat
- LLaVA ビジュアル命令 150K: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- GPT4Tools: https://github.com/StevenGrove/GPT4Tools
- 複数のマルチモーダル モデルへの API 呼び出しを行うための命令データ
- LaMini-instruction: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- Evol-Instruct 70k: https://github.com/nlpxucan/WizardLM
- ダイナソー: https://dynosaur-it.github.io/
- アルパカファーム:https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/ttsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- アイロボロス: https://github.com/jondurbin/airoboros
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat: 57 万の現実世界のユーザーと ChatGPT のやり取りのコーパス https://wildchat.allen.ai/
- フィードバック収集: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
優先データセット (報酬モデルのトレーニングに使用できます)
- HH-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- モデル出力の有害性と有用性に関する人間による評価が含まれます。データセットには、人間が評価した約 160,000 個の例が含まれています。このデータセット内の各例は、チャットボットからの応答のペアで構成されており、そのうちの 1 つが人間によって好まれます。
- OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- 合計約 20,000 件の比較が含まれており、各例は質問、模範解答のペア、メタデータで構成されています。回答は人間によって優先スコアで評価されます。
- OpenAI の要約: https://huggingface.co/datasets/openai/summarize_from_フィードバック
- 約 93,000 個の例が含まれており、各例はモデルによって生成された要約に関する人間からのフィードバックで構成されています。人間の評価者は 2 つの選択肢から優れた要約を選択しました。
- スタンフォード人間嗜好データセット (SHP): https://huggingface.co/datasets/stanfordnlp/SHP
- 18 の異なる主題分野における質問/指示に対する応答に対する人間の集合的な 38 万 5,000 の好み
- スタック交換の設定: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
- qa-from-hf: https://github.com/lil-lab/qa-from-hf
- ネクター: https://huggingface.co/datasets/berkeley-nest/Nectar
- JudgeLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
その他
- OIG: https://huggingface.co/datasets/laion/OIG
- oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- LeetCode の問題を複数のプログラミング言語で解決
- プロソーシャルダイアログ: https://huggingface.co/datasets/allenai/prosocial-dialog
- ConvoKit: https://convokit.cornell.edu/documentation/datasets.html
- CoT-Collection: https://github.com/kaist-lklab/CoT-Collection
- DialogStudio: https://github.com/salesforce/DialogStudio
- チャットボット アリーナでの会話 https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- lmsys 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- 会話クロニクル: https://conversation-chronicles.github.io/