Ensembles de données de réglage des instructions
Tous les ensembles de données disponibles pour le réglage des instructions de grands modèles de langage
Ensembles de données de référence
- P3 : https://github.com/bigscience-workshop/promptsource, https://huggingface.co/datasets/bigscience/P3
- Collection d'ensembles de données en anglais demandées couvrant un ensemble diversifié de tâches de PNL
- 2 000 types d'invites sur 270 ensembles de données
- xP3 : https://huggingface.co/datasets/bigscience/xP3mt
- Mélange de 13 tâches de formation en 46 langues avec des invites en 20 langues (traduit automatiquement de l'anglais)
- Instructions naturelles v2 : https://github.com/allenai/natural-instructions
- Un référentiel de 1 616 tâches PNL diverses et de leurs instructions rédigées par des experts, couvrant 76 types de tâches distincts et 55 langues différentes.
- La collection Flan : https://github.com/google-research/FLAN/tree/main/flan/v2
- sur-ensemble de certains des ensembles de données ici
- 1836 tâches, 15 millions d'exemples
- Assistant ouvert : https://huggingface.co/datasets/OpenAssistant/oasst1
- Corpus de conversations de type assistant annoté par l'homme, composé de 161 443 messages répartis dans 66 497 arbres de conversation, dans 35 langues différentes, annoté avec 461 292 évaluations de qualité.
- LIMA : 1K d'instructions de haute qualité
- https://huggingface.co/datasets/GAIR/lima
- databricks-dolly-15k : https://github.com/databrickslabs/dolly/tree/master/data
- PRESTO : https://github.com/google-research-datasets/presto
- 550 000 conversations multilingues contextuelles entre humains et assistants virtuels
- BB3x : https://parl.ai/projects/bb3x/
- InstructCTG : https://github.com/MichaelZhouwang/InstructCTG
- Cadre de génération contrôlée https://arxiv.org/abs/2304.14293
- CrossFit : https://github.com/INK-USC/CrossFit
- source de tâches : https://arxiv.org/abs/2301.05948
- ExMix : https://arxiv.org/abs/2111.10952
- InstructEval : https://github.com/declare-lab/instruct-eval
- M3IT : https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2,4 millions d'instances multimodales et 400 instructions réparties dans 40 tâches et 80 langues
- MIMIC-IT : réglage des instructions multimodales en contexte : https://arxiv.org/abs/2306.05425
- MultiInstruct : https://github.com/VT-NLP/MultiInstruct
- COLLIE : https://github.com/princeton-nlp/Collie
- Mind2Web : Vers un agent généraliste pour le Web https://osu-nlp-group.github.io/Mind2Web/
- Android in the Wild : un ensemble de données à grande échelle pour le contrôle des appareils Android : https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK : évaluation fine du modèle de langage basée sur des ensembles de compétences d'alignement https://github.com/kaistAI/FLASK
- Coffre-fort-RLHF : https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- AideSteer : https://huggingface.co/datasets/nvidia/HelpSteer
Standard Argent/Généré à l'aide de LM
- Auto-instruction : https://github.com/yizhongw/self-instruct
- Instructions contre nature : https://github.com/orhonovich/unnatural-instructions
- Alpaga : https://huggingface.co/datasets/tatsu-lab/alpaca
- Alpaga-Clean : https://github.com/gururise/AlpacaDataCleaned
- Code Alpaga : https://github.com/sahil280114/codealpaca
- AlpacaGPT3.5Customized : https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Customized
- GPT4All : https://github.com/nomic-ai/gpt4all
- GPT4All-pruned : https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- PartagerGPT : https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- GPTeacher : https://github.com/teknium1/GPTeacher
- CHAMEAU ? : https://www.camel-ai.org/
- Corpus de comparaison ChatGPT humain : https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- InstructionWild : https://github.com/XueFuzhao/InstructionWild
- Réglage des instructions avec GPT-4 : https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- Guanaco : https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- L'ensemble de données LongForm : https://github.com/akoksal/LongForm/tree/main/dataset
- Génération d'instructions LLM pour un ensemble diversifié d'échantillons de corpus (27 739 instructions et paires de textes longs)
- UltraChat : https://huggingface.co/datasets/stingning/ultrachat
- Instructeur visuel LLaVA 150K : https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- Données de suivi d'instructions multimodales générées par GPT
- GPT4Tools : https://github.com/StevenGrove/GPT4Tools
- Données d'instruction pour effectuer des appels API vers plusieurs modèles multimodaux
- LaMini-Instruction : https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 2,58 millions de paires d'instructions et de réponses
- Evol-Instruct 70k : https://github.com/nlpxucan/WizardLM
- Dynosaure : https://dynosaur-it.github.io/
- Ferme d'alpaga : https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k : https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- airoboros : https://github.com/jondurbin/airoboros
- UltraFeedback : https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat : Corpus de 570 000 interactions utilisateur-ChatGPT du monde réel https://wildchat.allen.ai/
- Collecte de commentaires : https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
Ensembles de données de préférence (peuvent être utilisés pour entraîner le modèle de récompense)
- HH-RLHF : https://huggingface.co/datasets/Anthropic/hh-rlhf
- Contient les évaluations humaines de la nocivité et de l’utilité des résultats du modèle. L'ensemble de données contient environ 160 000 exemples évalués par des humains, chaque exemple de cet ensemble de données étant constitué d'une paire de réponses d'un chatbot, dont l'une est préférée par les humains.
- OpenAI WebGPT : https://huggingface.co/datasets/openai/webgpt_comparisons
- Comprend un total d'environ 20 000 comparaisons où chaque exemple comprend une question, une paire de réponses modèles et des métadonnées. Les réponses sont évaluées par des humains avec un score de préférence.
- Résumé OpenAI : https://huggingface.co/datasets/openai/summarize_from_feedback
- Contient environ 93 000 exemples, chaque exemple consiste en des commentaires d'humains concernant les résumés générés par un modèle. Les évaluateurs humains ont choisi le résumé supérieur parmi deux options.
- Ensemble de données sur les préférences humaines de Stanford (SHP) : https://huggingface.co/datasets/stanfordnlp/SHP
- 385 000 préférences humaines collectives concernant les réponses aux questions/instructions dans 18 domaines différents
- Préférences Stack Exchange : https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K : https://huggingface.co/datasets/JeremyAlain/SLF5K
- qa-from-hf : https://github.com/lil-lab/qa-from-hf
- Nectar : https://huggingface.co/datasets/berkeley-nest/Nectar
- JugeLM-100K : https://huggingface.co/datasets/BAAI/JudgeLM-100K
- UltraFeedback : https://huggingface.co/datasets/openbmb/UltraFeedback
Divers
- BIG : https://huggingface.co/datasets/laion/OIG
- Surensemble de certains des ensembles de données ici
- oa_leet10k : https://huggingface.co/datasets/ehartford/oa_leet10k
- Problèmes LeetCode résolus dans plusieurs langages de programmation
- Dialogue ProSocial : https://huggingface.co/datasets/allenai/prosocial-dialog
- ConvoKit : https://convokit.cornell.edu/documentation/datasets.html
- CoT-Collection : https://github.com/kaist-lklab/CoT-Collection
- DialogStudio : https://github.com/salesforce/DialogStudio
- Conversations dans l'arène Chatbot https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- lmsys 1M : https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- Chroniques de conversation : https://conversation-chronicles.github.io/