Conjuntos de datos de ajuste de instrucciones
Todos los conjuntos de datos disponibles para el ajuste de instrucciones de modelos de lenguaje grandes
Conjuntos de datos estándar de oro
- P3: https://github.com/bigscience-workshop/promptsource, https://huggingface.co/datasets/bigscience/P3
- Colección de conjuntos de datos en inglés que cubren un conjunto diverso de tareas de PNL
- 2000 tipos de mensajes en 270 conjuntos de datos
- xP3: https://huggingface.co/datasets/bigscience/xP3mt
- Combinación de 13 tareas de capacitación en 46 idiomas con indicaciones en 20 idiomas (traducidas automáticamente del inglés)
- Instrucciones naturales v2: https://github.com/allnai/natural-instructions
- Un punto de referencia de 1.616 tareas diversas de PNL y sus instrucciones escritas por expertos, que cubren 76 tipos de tareas distintas y 55 idiomas diferentes.
- La colección Flan: https://github.com/google-research/FLAN/tree/main/flan/v2
- superconjunto de algunos de los conjuntos de datos aquí
- 1836 tareas, 15 millones de ejemplos.
- Asistente abierto: https://huggingface.co/datasets/OpenAssistant/oasst1
- Corpus de conversación estilo asistente anotado por humanos que consta de 161.443 mensajes distribuidos en 66.497 árboles de conversación, en 35 idiomas diferentes, anotados con 461.292 calificaciones de calidad.
- LIMA: Instrucciones 1K de alta calidad
- https://huggingface.co/datasets/GAIR/lima
- ladrillos de datos-dolly-15k: https://github.com/databrickslabs/dolly/tree/master/data
- PRESTO: https://github.com/google-research-datasets/presto
- 550.000 conversaciones multilingües contextuales entre humanos y asistentes virtuales
- BB3x: https://parl.ai/projects/bb3x/
- InstruirCTG: https://github.com/MichaelZhouwang/InstructCTG
- Marco para generación controlada https://arxiv.org/abs/2304.14293
- CrossFit: https://github.com/INK-USC/CrossFit
- fuente de tareas: https://arxiv.org/abs/2301.05948
- ExMix: https://arxiv.org/abs/2111.10952
- InstructEval: https://github.com/declare-lab/instruct-eval
- M3IT: https://huggingface.co/datasets/MMInstruction/M3IT
- https://arxiv.org/abs/2306.04387
- 2,4 millones de instancias multimodales y 400 instrucciones en 40 tareas y 80 idiomas
- MIMIC-IT: Ajuste de instrucción multimodal en contexto: https://arxiv.org/abs/2306.05425
- Instrucción múltiple: https://github.com/VT-NLP/MultiInstruct
- COLLIE: https://github.com/princeton-nlp/Collie
- Mind2Web: Hacia un agente generalista para la Web https://osu-nlp-group.github.io/Mind2Web/
- Android en la naturaleza: un conjunto de datos a gran escala para el control de dispositivos Android: https://github.com/google-research/google-research/tree/master/android_in_the_wild
- FLASK: Evaluación detallada del modelo de lenguaje basada en conjuntos de habilidades de alineación https://github.com/kaistAI/FLASK
- Safe-RLHF: https://arxiv.org/abs/2310.12773
- https://arxiv.org/pdf/2310.12773.pdf#https%3A//github.com/PKU-Alignment/safe-rlhf
- Dirección de ayuda: https://huggingface.co/datasets/nvidia/HelpSteer
Estándar de plata/generado usando LM
- Autoinstrucción: https://github.com/yizhongw/self-instruct
- Instrucciones antinaturales: https://github.com/orhonovich/unnatural-instructions
- Alpaca: https://huggingface.co/datasets/tatsu-lab/alpaca
- Alpaca-Clean: https://github.com/gururise/AlpacaDataCleaned
- Código Alpaca: https://github.com/sahil280114/codealpaca
- AlpacaGPT3.5Personalizado: https://huggingface.co/datasets/whitefox44/AlpacaGPT3.5Personalizado
- GPT4All: https://github.com/nomic-ai/gpt4all
- GPT4All-podado: https://huggingface.co/datasets/Nebulous/gpt4all_pruned
- CompartirGPT: https://huggingface.co/datasets/RyokoAI/ShareGPT52K
- GPTeacher: https://github.com/teknium1/GPTeacher
- ¿CAMELLO?: https://www.camel-ai.org/
- Corpus de comparación de ChatGPT humano: https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
- InstrucciónWild: https://github.com/XueFuzhao/InstructionWild
- Ajuste de instrucciones con GPT-4: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- Guanaco: https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
- El conjunto de datos de formato largo: https://github.com/akoksal/LongForm/tree/main/dataset
- Generación de instrucciones LLM para un conjunto diverso de muestras de corpus (27,739 instrucciones y pares de texto largos)
- UltraChat: https://huggingface.co/datasets/stingning/ultrachat
- Instrucción visual LLaVA 150K: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
- Datos de seguimiento de instrucciones multimodales generados por GPT
- Herramientas GPT4: https://github.com/StevenGrove/GPT4Tools
- Datos de instrucciones para realizar llamadas API a varios modelos multimodales
- LaMini-Instrucción: https://huggingface.co/datasets/MBZUAI/LaMini-instruction
- 2,58 millones de pares de instrucciones y respuestas
- Evol-Instruct 70k: https://github.com/nlpxucan/WizardLM
- Dinosaurio: https://dynosaur-it.github.io/
- Granja de alpacas: https://github.com/tatsu-lab/alpaca_farm
- https://huggingface.co/datasets/tatsu-lab/alpaca_farm
- ign_clean_instruct_dataset_500k: https://huggingface.co/datasets/ignmilton/ign_clean_instruct_dataset_500k
- airoboros: https://github.com/jondurbin/airoboros
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
- WildChat: corpus de 570 000 interacciones ChatGPT entre usuarios del mundo real https://wildchat.allen.ai/
- Colección de comentarios: https://arxiv.org/abs/2310.08491
- https://huggingface.co/datasets/kaist-ai/Feedback-Collection
Conjuntos de datos de preferencias (se pueden utilizar para entrenar el modelo de recompensa)
- HH-RLHF: https://huggingface.co/datasets/Anthropic/hh-rlhf
- Contiene calificaciones humanas de nocividad y utilidad de los resultados del modelo. El conjunto de datos contiene ~160.000 ejemplos calificados por humanos, donde cada ejemplo de este conjunto de datos consta de un par de respuestas de un chatbot, una de las cuales es la preferida por los humanos.
- OpenAI WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
- Incluye un total de alrededor de 20.000 comparaciones donde cada ejemplo comprende una pregunta, un par de respuestas modelo y metadatos. Las respuestas son calificadas por humanos con una puntuación de preferencia.
- Resumen de OpenAI: https://huggingface.co/datasets/openai/summarize_from_feedback
- Contiene ~93.000 ejemplos, cada ejemplo consta de comentarios de humanos sobre los resúmenes generados por un modelo. Los evaluadores humanos eligieron el resumen superior entre dos opciones.
- Conjunto de datos de preferencias humanas de Stanford (SHP): https://huggingface.co/datasets/stanfordnlp/SHP
- 385.000 preferencias humanas colectivas sobre las respuestas a preguntas/instrucciones en 18 áreas temáticas diferentes
- Preferencias de Stack Exchange: https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences
- SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
- qa-de-hf: https://github.com/lil-lab/qa-from-hf
- Néctar: https://huggingface.co/datasets/berkeley-nest/Nectar
- JuezLM-100K: https://huggingface.co/datasets/BAAI/JudgeLM-100K
- UltraFeedback: https://huggingface.co/datasets/openbmb/UltraFeedback
Varios
- OIG: https://huggingface.co/datasets/laion/OIG
- Superconjunto de algunos de los conjuntos de datos aquí
- oa_leet10k: https://huggingface.co/datasets/ehartford/oa_leet10k
- Problemas de LeetCode resueltos en múltiples lenguajes de programación
- Diálogo ProSocial: https://huggingface.co/datasets/allenai/prosocial-dialog
- ConvoKit: https://convokit.cornell.edu/documentation/datasets.html
- Colección CoT: https://github.com/kaist-lklab/CoT-Collection
- DialogStudio: https://github.com/salesforce/DialogStudio
- Conversaciones de Chatbot Arena https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
- lmsys 1M: https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- Crónicas de conversación: https://conversation-chronicles.github.io/