Conjuntos de dados de ajuste de instruções
Todos os conjuntos de dados disponíveis para ajuste de instruções de modelos de linguagem grande
Conjuntos de dados padrão ouro
- P3: https://github.com/bigscience-workshop/promptsource, https://huggingface.co/datasets/bigscience/P3
- Coleção de conjuntos de dados solicitados em inglês cobrindo um conjunto diversificado de tarefas de PNL
- 2.000 tipos de prompt em 270 conjuntos de dados
- xP3: https://huggingface.co/datasets/bigscience/xP3mt
- Mistura de 13 tarefas de treinamento em 46 idiomas com instruções em 20 idiomas (traduzido automaticamente do inglês)
- Instruções naturais v2: https://github.com/allenai/natural-instructions
- Uma referência de 1.616 tarefas diversas de PNL e suas instruções escritas por especialistas, cobrindo 76 tipos de tarefas distintas e 55 idiomas diferentes.
- A coleção Flan: https://github.com/google-research/FLAN/tree/main/flan/v2
- superconjunto de alguns dos conjuntos de dados aqui
- Tarefas de 1836, exemplos de 15m
- Assistente aberto: https://huggingface.co/datasets/OpenAssistant/oasst1
- Corpus de conversação estilo assistente anotado por humanos, composto por 161.443 mensagens distribuídas em 66.497 árvores de conversação, em 35 idiomas diferentes, anotadas com 461.292 classificações de qualidade
- LIMA: 1K instruções de alta qualidade
- https://huggingface.co/datasets/GAIR/lima
- databricks-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
- PRESTO: https://github.com/google-research-datasets/presto
- 550 mil conversas contextuais multilíngues entre humanos e assistentes virtuais
- BB3x: https://parl.ai/projects/bb3x/
- InstruirCTG: https://github.com/MichaelZhouwang/InstructCTG
- Estrutura para geração controlada https://arxiv.org/abs/2304.14293
- CrossFit: https://github.com/INK-USC/CrossFit
- fonte da tarefa: https://arxiv.org/abs/2301.05948
- ExMix: https://arxiv.org/abs/2111.10952
- InstructEval: https://github.com/declare-lab/instruct-eval
- M3IT: https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2,4 milhões de instâncias multimodais e 400 instruções em 40 tarefas e 80 idiomas
- MIMIC-IT: Ajuste de instrução multimodal no contexto: https://arxiv.org/abs/2306.05425
- MultiInstruct: https://github.com/VT-NLP/MultiInstruct
- COLLIE: https://github.com/princeton-nlp/Collie
- Mind2Web: Rumo a um Agente Generalista para a Web https://osu-nlp-group.github.io/Mind2Web/
- Android em estado selvagem: um conjunto de dados em grande escala para controle de dispositivos Android: https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK: Avaliação refinada do modelo de linguagem com base em conjuntos de habilidades de alinhamento https://github.com/kaistAI/FLASK
- Seguro-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- HelpSteer: https://huggingface.co/datasets/nvidia/HelpSteer
Padrão prata/gerado usando LM
- Autoinstrução: https://github.com/yizhongw/self-instruct
- Instruções não naturais: https://github.com/orhonovich/unnatural-instructions
- Alpaca: https://huggingface.co/datasets/tatsu-lab/alpaca
- Alpaca-Clean: https://github.com/gururise/AlpacaDataCleaned
- Código Alpaca: https://github.com/sahil280114/codealpaca
- AlpacaGPT3.5Personalizado: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Customized
- GPT4All: https://github.com/nomic-ai/gpt4all
- GPT4All-pruned: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- CompartilharGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- GPTeacher: https://github.com/teknium1/GPTeacher
- CAMELO?: https://www.camel-ai.org/
- Corpus de comparação de ChatGPT humano: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- InstruçãoWild: https://github.com/XueFuzhao/InstructionWild
- Ajuste de instrução com GPT-4: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- Guanaco: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- O conjunto de dados LongForm: https://github.com/akoksal/LongForm/tree/main/dataset
- Geração de instruções LLM para um conjunto diversificado de amostras de corpus (27.739 instruções e pares de texto longo)
- UltraChat: https://huggingface.co/datasets/stingning/ultrachat
- LLaVA Visual Instruct 150K: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- Dados de acompanhamento de instruções multimodais gerados por GPT
- GPT4Tools: https://github.com/StevenGrove/GPT4Tools
- Dados de instrução para fazer chamadas de API para vários modelos multimodais
- Instrução LaMini: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 2,58 milhões de pares de instruções e respostas
- Evol-Instruct 70k: https://github.com/nlpxucan/WizardLM
- Dinossauro: https://dynosaur-it.github.io/
- Fazenda Alpaca: https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- airoboros: https://github.com/jondurbin/airoboros
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat: Corpus de 570 mil interações usuário-ChatGPT do mundo real https://wildchat.allen.ai/
- Coleta de comentários: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
Conjuntos de dados de preferência (podem ser usados para treinar o modelo de recompensa)
- HH-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- Contém classificações humanas de nocividade e utilidade dos resultados do modelo. O conjunto de dados contém aproximadamente 160 mil exemplos avaliados por humanos, onde cada exemplo neste conjunto de dados consiste em um par de respostas de um chatbot, uma das quais é preferida por humanos.
- OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- Inclui um total de cerca de 20 mil comparações, onde cada exemplo compreende uma pergunta, um par de respostas de modelo e metadados. As respostas são avaliadas por humanos com uma pontuação de preferência.
- Resumo OpenAI: https://huggingface.co/datasets/openai/summarize_from_feedback
- Contém cerca de 93 mil exemplos, cada exemplo consiste em feedback de humanos sobre os resumos gerados por um modelo. Os avaliadores humanos escolheram o resumo superior entre duas opções.
- Conjunto de dados de preferências humanas de Stanford (SHP): https://huggingface.co/datasets/stanfordnlp/SHP
- 385 mil preferências humanas coletivas sobre respostas a perguntas/instruções em 18 áreas temáticas diferentes
- Preferências do Stack Exchange: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
- qa-from-hf: https://github.com/lil-lab/qa-from-hf
- Néctar: https://huggingface.co/datasets/berkeley-nest/Nectar
- JuizLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
Diversos
- OIG: https://huggingface.co/datasets/laion/OIG
- Superconjunto de alguns dos conjuntos de dados aqui
- oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- Problemas LeetCode resolvidos em múltiplas linguagens de programação
- Diálogo ProSocial: https://huggingface.co/datasets/allenai/prosocial-dialog
- ConvoKit: https://convokit.cornell.edu/documentation/datasets.html
- Coleção CoT: https://github.com/kaist-lklab/CoT-Collection
- DialogStudio: https://github.com/salesforce/DialogStudio
- Conversas do Chatbot Arena https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- lmsys 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- Crônicas de conversação: https://conversation-chronicles.github.io/