Conjuntos de datos de alineación • Conjuntos de datos específicos de dominio • Conjuntos de datos de preentrenamiento ?️ Conjuntos de datos multimodales
Los modelos de lenguajes grandes (LLM), como la serie GPT de OpenAI, Bard de Google y Wenxin Yiyan de Baidu, están impulsando profundos cambios tecnológicos. Recientemente, con la aparición de grandes marcos de modelos de código abierto como LlaMa y ChatGLM, la formación de un LLM ya no es dominio exclusivo de las empresas ricas en recursos. La formación de LLM por parte de pequeñas organizaciones o individuos se ha convertido en un interés importante en la comunidad de código abierto, con algunos trabajos notables que incluyen Alpaca, Vicuna y Luotuo. Además de los marcos de modelos grandes, los corpus de capacitación a gran escala y de alta calidad también son esenciales para entrenar modelos de lenguaje grandes. Actualmente, los corpus de código abierto relevantes en la comunidad todavía están dispersos. Por lo tanto, el objetivo de este repositorio es recopilar continuamente corpus de capacitación de alta calidad para LLM en la comunidad de código abierto.
Entrenar un LLM de chatbot que pueda seguir las instrucciones humanas de manera efectiva requiere acceso a conjuntos de datos de alta calidad que cubran una variedad de dominios y estilos de conversación. En este repositorio, proporcionamos una colección seleccionada de conjuntos de datos diseñados específicamente para la capacitación de chatbots, incluidos enlaces, tamaño, idioma, uso y una breve descripción de cada conjunto de datos. Nuestro objetivo es facilitar que los investigadores y profesionales identifiquen y seleccionen los conjuntos de datos más relevantes y útiles para sus necesidades de capacitación en LLM de chatbot. Ya sea que esté trabajando para mejorar la calidad del diálogo del chatbot, la generación de respuestas o la comprensión del lenguaje, este repositorio tiene algo para usted.
Si quieres colaborar puedes contactar con:
¿Junhao Zhao?
Asesorado por el Prof. Wanyun Cui
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
ayudaConducir | / | RLHF | Inglés | 37k instancias | Un conjunto de datos RLHF anotado por humanos con medidas de utilidad, corrección, coherencia, complejidad y verbosidad. |
no_robots | / | OFV | Inglés | instancia de 10k | Datos STF de alta calidad creados por humanos, de un solo turno. |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
Antrópico_ HH_dorado | ULMA | SFT/RLHF | Inglés | tren 42,5k + prueba 2,3k | Se mejoró el conjunto de datos inofensivo de los conjuntos de datos Útiles e Inofensivos (HH) de Anthropic. Usando GPT4 para reescribir la respuesta "elegida" original. En comparación con el conjunto de datos Harmless original, empíricamente este conjunto de datos mejora significativamente el rendimiento de los métodos RLHF, DPO o ULMA en métricas inofensivas. |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
función_ vocación_ extendido | / | Pares | Inglés código | / | Conjunto de datos creados por humanos de alta calidad a partir de la capacidad de uso de API de LM mejorada. |
Historias americanas | / | PT | Inglés | / | Corpus de gran tamaño escaneado de la Biblioteca del Congreso de EE. UU. |
dolma | OLMo | PT | / | fichas 3T | Un corpus amplio y diverso de código abierto para el preentrenamiento de LM. |
Ornitorrinco | Ornitorrinco2 | Pares | Inglés | 25K | Un conjunto de datos de muy alta calidad para mejorar la capacidad de razonamiento STEM de LM. |
Frailecillo | Redmond-frailecillo Serie | Diálogo | Inglés | ~3k entradas | Un conjunto de datos consta de conversaciones entre humanos reales y GPT-4, que presenta un contexto extenso (más de 1.000 tokens por conversación) y diálogos de varios turnos. |
pequeña serie | / | Pares | Inglés | / | Una serie de códigos o textos breves y concisos tienen como objetivo mejorar la capacidad de razonamiento de LM. |
banco largo | / | Evaluación Solo | Inglés Chino | 17 tareas | Un punto de referencia para evaluar la capacidad de comprensión del contexto a largo plazo de LLM. |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
charla-orca | / | Diálogo | Inglés | 198.463 entradas | Un conjunto de datos de diálogo estilo Orca tiene como objetivo mejorar la capacidad de conversación en contexto prolongado de LM. |
DiálogoStudio | / | Diálogo | Plurilingüe | / | Una colección de diversos conjuntos de datos tiene como objetivo crear un chatbot conversacional. |
chatbot_arena _conversaciones | / | RLHF Diálogo | Plurilingüe | 33k conversaciones | Conversaciones limpiadas con preferencias humanas por pares recopiladas en Chatbot Arena. |
WebGLM-qa | WebGLm | Pares | Inglés | 43,6k entradas | Conjunto de datos utilizado por WebGLM, que es un sistema de control de calidad basado en LLM e Internet. Cada una de las entradas de este conjunto de datos consta de una pregunta, una respuesta y una referencia. La respuesta se fundamenta en la referencia. |
fi-1 | fi-1 | Diálogo | Inglés | / | Un conjunto de datos generado utilizando el método de Los libros de texto son todo lo que necesita. Se centra en problemas de matemáticas y informática. |
Linly- preentrenamiento- conjunto de datos | serie lily | PT | Chino | 3,4 GB | El conjunto de datos de preentrenamiento chino utilizado por el modelo de la serie Linly comprende ClueCorpusSmall, rastreo de noticias de CSL, etc. |
De grano finoRLHF | / | RLHF | Inglés | ~5K ejemplos | Un repositorio tiene como objetivo desarrollar un nuevo marco para recopilar comentarios humanos. Los datos recopilados tienen el propósito de mejorar la corrección fáctica, la relevancia del tema y otras habilidades de los LLM. |
delfín | / | Pares | Inglés | 4,5 millones de entradas | Un intento de replicar la Orca de Microsoft. Basado en FLANv2. |
chat abierto_ compartirgpt4_ conjunto de datos | Chat abierto | Diálogo | Inglés | 6k diálogos | Un conjunto de datos de alta calidad generado mediante el uso de GPT-4 para completar indicaciones refinadas de ShareGPT. |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
OpenOrca | / | Pares | Inglés | 4,5 millones de terminaciones | Una colección de datos FLAN aumentados. El método generado es el papel Orca. |
COIG-PC COIG-Lite | / | Pares | Chino | / | Versión mejorada de COIG. |
AsistenteLM_Orca | serie orca_mini | Pares | Inglés | 55.000 entradas | Datos mejorados de WizardLM. Generado mediante el método de orca. |
arxiv instruye conjuntos de datos matemáticas CS Física | / | Pares | Inglés | 50K/ 50K/ 30.000 entradas | El conjunto de datos consta de pares de preguntas y respuestas derivados de resúmenes de ArXiv. Las preguntas se generan utilizando el modelo base t5, mientras que las respuestas se generan utilizando el modelo turbo GPT-3.5. |
estoy-sintiendo- curioso | / | Pares | Inglés | 2595 entradas | Preguntas aleatorias y datos correspondientes generados por Google. Siento características curiosas . |
ign_clean _instruir _conjunto de datos_500k | / | Pares | / | 509K entradas | Un conjunto de datos SFT a gran escala que se crea sintéticamente a partir de un subconjunto de mensajes de Ultrachat. falta de tarjeta de datos detallada |
AsistenteLM evolucionar_instruir V2 | AsistenteLM | Diálogo | Inglés | 196k entradas | La última versión del conjunto de datos Evolve Instruct. |
dinosaurio | / | Pares | Inglés | 800.000 entradas | El conjunto de datos generado mediante la aplicación del método de este artículo. Lo más destacado es generar datos de alta calidad a bajo costo. |
SlimPijama | / | PT | Ante todo Inglés | / | Una versión limpia y deduplicada de RedPajama |
Conjunto de datos de Lima | LIMA | Pares | Inglés | 1k entradas | Conjunto de datos SFT de alta calidad utilizado por LIMA: Menos es más para la alineación |
Serie TigerBot | tigrebot | PT Pares | Chino Inglés | / | Conjuntos de datos utilizados para entrenar TigerBot, incluidos datos de preentrenamiento, datos STF y algunos conjuntos de datos específicos de dominio, como informes de investigación financiera. |
ETI-v0 | / | Pares | Inglés | 30k ejemplos por tarea | A Datos de ajuste de instrucciones multitarea refundidos a partir de 475 de los conjuntos de datos de origen de tareas. Similar al conjunto de datos Flan y la instrucción natural. |
NMBVC | / | PT | Chino | / | Un conjunto de datos chinos de preentrenamiento a gran escala y que se actualiza continuamente. |
Desbordamiento de pila correo | / | PT | / | 35GB | Datos sin procesar de StackOverflow en formato Markdown, para entrenamiento previo. |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
LaMini-Instrucción | / | Pares | Inglés | 2,8 millones de entradas | Un conjunto de datos extraído de la recolección de flan, p3 y la autoinstrucción. |
ultraChat | / | Diálogo | Inglés | 1,57 millones de diálogos | Un conjunto de datos de diálogo a gran escala creado mediante el uso de dos ChatGPT, uno de los cuales actúa como usuario y el otro genera respuesta. |
CompartirGPT_ Vicuña_sin filtrar | Vicuña | Pares | Plurilingüe | 53.000 entradas | Se limpió el conjunto de datos ShareGPT. |
pku-saferlhf-conjunto de datos | Castor | RLHF | Inglés | 10K + 1M | El primer conjunto de datos de este tipo y contiene 10.000 instancias con preferencias de seguridad. |
Conjunto de datos RefGPT enlace no oficial | RefGPT | Pares, Diálogo | Chino | ~50.000 entradas | Un conjunto de datos de diálogo chino tiene como objetivo mejorar la exactitud de los hechos en los LLM (mitigar la alucinación de los LLM). |
Luotuo-QA-A CoQA-chino | Proyecto Luotuo | Contexto | Chino | 127.000 pares de control de calidad | Un conjunto de datos basado en CoQA traducido. Aumentado mediante el uso de la API OpenAI. |
Asistente-LM-chino instruir-evol | Proyecto Luotuo | Pares | Chino | ~70.000 entradas | Versión china WizardLM 70K. Las respuestas se obtienen mediante preguntas traducidas en la API GPT de OpenAI y luego se obtienen respuestas. |
alpaca_china conjunto de datos | / | Pares | Chino | / | Los datos de alpaca traducidos de GPT-4 incluyen algunos datos complementarios (como poesía china, aplicaciones, etc.). Inspeccionado por humanos. |
Zhihu-KOL | Asistente abierto | Pares | Chino | 1,5GB | Datos de control de calidad sobre la conocida plataforma china de control de calidad Zhihu. |
Alpaca-GPT-4_zh-cn | / | Pares | Chino | alrededor de 50 mil entradas | Un conjunto de datos chino estilo Alpaca, generado por GPT-4 originalmente en chino, no traducido. |
hh-rlhf en Huggingface | Coala | RLHF | Inglés | 161k pares 79,3MB | Un conjunto de datos por pares para entrenar modelos de recompensa en el aprendizaje por refuerzo para mejorar la inocuidad y utilidad de los modelos de lenguaje. |
Panther-dataset_v1 | Pantera | Pares | Inglés | 377 entradas | Un conjunto de datos proviene de hh-rlhf. Reescribe hh-rlhf en forma de pares de entrada-salida. |
Conjunto de datos de bayeta | Bayeta | Diálogo | Inglés | 100.000 diálogos | Un conjunto de datos de diálogo generado por GPT-4 mediante la comunicación autónoma. Las preguntas y los temas se recopilan de Quora, StackOverflow y algunas fuentes de conocimiento médico. |
h2ogpt-fortuna2000 personalizado | h2ogpt | Pares | Inglés | 11363 entradas | Un ajuste de instrucción desarrollado por h2oai cubrió varios temas. |
SHP | EstabloVicuña, opción de chat, , SteamSHP | RLHF | Inglés | 385.000 entradas | Un conjunto de datos RLHF diferente de los mencionados anteriormente, utiliza puntuaciones + marcas de tiempo para inferir las preferencias de los usuarios. Cubre 18 dominios, recopilados por Stanford. |
ELI5 | Serie MiniLM | PIE, RLHF | Inglés | 270.000 entradas | Preguntas y respuestas recopiladas de Reddit, incluida la puntuación. Podría usarse para el entrenamiento del modelo de recompensa RLHF. |
AsistenteLM instrucción_evol V2 | AsistenteLM | Pares | Inglés | Un conjunto de datos de ajuste fino de instrucciones derivado de Alpaca-52K, utilizando el método de evolución en este artículo | |
Datos de MOSS SFT | MUSGO | parejas, Diálogo | Chino, Inglés | 1,1 millones de entradas | Un conjunto de datos conversacionales recopilado y desarrollado por el equipo de MOSS. Dispone de etiquetas de utilidad, fidelización e inocuidad para cada entrada de datos. |
CompartirGPT52K | Koala, Estable LLM | Pares | Plurilingüe | 52K | Este conjunto de datos comprende conversaciones recopiladas de ShareGPT, con un enfoque específico en conversaciones creativas personalizadas. |
Conjunto de datos GPT-4all | GPT-4todos | Pares | Inglés, podría haber una versión traducida | 400k entradas | Una combinación de algunos subconjuntos de OIG, P3 y Stackoverflow. Cubre temas como control de calidad general y preguntas creativas personalizadas. |
COIG | / | Pares | Chino, código | 200.000 entradas | Un conjunto de datos basado en China. Contiene dominios como control de calidad de propósito general, exámenes de chino y código. Su calidad es comprobada por anotadores humanos. |
RedPijama-Data-1T | pijama rojo | PT | Principalmente inglés | 1,2 billones de fichas 5TB | Un conjunto de datos de preentrenamiento completamente abierto sigue el método de LLaMA. |
OASST1 | Asistente abierto | parejas, Diálogo | Plurilingüe (inglés, español, etc.) | 66.497 árboles de conversación | Un gran conjunto de datos de conversaciones de alta calidad, escrito y anotado por humanos. Su objetivo es hacer que LLM genere una respuesta más natural. |
Alpaca-CUNA | Fénix | parejas, Diálogo, Cuna | Inglés | / | Una mezcla de muchos conjuntos de datos como el conjunto de datos clásico de Alpaca, OIG, Guanaco y algunos conjuntos de datos de CoT (cadena de pensamiento) como FLAN-CoT. Puede resultar útil utilizarlo. |
Bactriano-X | / | Pares | Plurilingüe (52 idiomas) | 67.000 entradas por idioma | Una versión multilingüe de Alpaca y Dolly-15K . |
databricks-dolly-15k zh-cn Ver | muñeca2.0 | Pares | Inglés | Más de 15.000 entradas | Un conjunto de datos de indicaciones y respuestas escritas por humanos , que incluye tareas como respuesta a preguntas de dominio abierto, lluvia de ideas, resúmenes y más. |
AlpacaDatosLimpiado | Algunos modelos tipo Alpaca/LLaMA | Pares | Inglés | / | Versión limpia de Alpaca, GPT_LLM y GPTeacher. |
Conjunto de datos GPT-4-LLM | Algunos modelos tipo alpaca | parejas, RLHF | Inglés, Chino | 52.000 entradas para inglés y chino respectivamente 9K entradas instrucción antinatural | ¡¡NO el conjunto de datos utilizado por GPT-4!! Es generado por GPT-4 y algún otro LLM para mejores pares y RLHF. Incluye datos de instrucción y datos de comparación en estilo RLHF. |
GPProfesor | / | Pares | Inglés | 20k entradas | Un conjunto de datos contiene objetivos generados por GPT-4 e incluye muchas de las mismas tareas iniciales que el conjunto de datos de Alpaca, con la adición de algunas tareas nuevas, como el juego de roles. |
HC3 | Coala | RLHF | Inglés, Chino | 24322 inglés 12853 chino | Un conjunto de datos de comparación multidominio entre humanos y ChatGPT. Se puede utilizar para el entrenamiento de modelos de recompensa o el entrenamiento de detectores ChatGPT. |
Datos de alpaca Descargar | Alpaca, ChatGLM-finetune-LoRA, Koala | Diálogo, Pares | Inglés | 52K entradas 21,4MB | Un conjunto de datos generado por text-davinci-003 para mejorar la capacidad de los modelos de lenguaje para seguir instrucciones humanas. |
OIG OIG-pequeño-chip2 | Pythia-Chat-Base-7B, GPT-NeoXT-Chat-Base-20B, Koala | Diálogo, Pares | Inglés, código | 44 millones de entradas | Un gran conjunto de datos de instrucción conversacional con subconjuntos de calidad media y alta (OIG-small-chip2) para el aprendizaje multitarea. |
Datos de ChatAlpaca | / | Diálogo, Pares | Inglés, Próximamente versión china | 10k entradas 39,5MB | Un conjunto de datos tiene como objetivo ayudar a los investigadores a desarrollar modelos para seguir instrucciones en conversaciones de varios turnos. |
InstrucciónSalvaje | ColosalChat | Pares | inglés, chino | 10K ganancias | Un conjunto de datos estilo Alpaca, pero con tareas iniciales proviene de la captura de pantalla de chatgpt. |
Luciérnaga (流萤) | Luciérnaga (流萤) | Pares | Chino | 1,1 millones de entradas 1,17GB | Un conjunto de datos chinos de ajuste de instrucciones con 1,1 millones de ejemplos escritos por humanos en 23 tareas, pero sin conversación. |
BELDAD versión de 0,5 M versión 1M versión 2M | Serie BELLE, Chunhua (春华) | Pares | Chino | 2,67 mil millones en total | Un conjunto de datos de instrucciones en chino similar a los datos de Alpaca construido generando respuestas a partir de tareas iniciales, pero sin conversación. |
GuanacoConjunto de datos | guanaco | Diálogo, Pares | Inglés, Chino, japonés | 534.530 entradas | Un conjunto de datos de instrucción multilingüe para mejorar las capacidades de los modelos lingüísticos en diversas tareas lingüísticas, como la comprensión del lenguaje natural y el reconocimiento explícito de contenido. |
OpenAI WebGPT | El modelo de recompensa de WebGPT, Koala | RLHF | Inglés | 19.578 pares | Conjunto de datos utilizado en el artículo WebGPT. Se utiliza para entrenar el modelo de recompensa en RLHF. |
Abierto AI Resumen Comparación | Coala | RLHF | Inglés | ~93.000 entradas 420MB | Un conjunto de datos de retroalimentación humana que ayuda a entrenar un modelo de recompensa. Luego, el modelo de recompensa se utilizó para entrenar un modelo de resumen para alinearlo con las preferencias humanas. |
autoinstruirse | / | Pares | Inglés | 82K entradas | El conjunto de datos generado mediante el conocido método de autoinstrucción. |
instrucciones-antinaturales | / | Pares | Inglés | 240.670 ejemplos | Un primer intento de utilizar un modelo potente (text-davinci-002) para generar datos. |
xP3 (y alguna variante) | BLOOMZ, mT0 | Pares | Plurilingüe, código | 79 millones de entradas 88GB | Un conjunto de datos de instrucción para mejorar la capacidad de generalización de los modelos de lenguaje, similar a Natural Instruct . |
Flan V2 | / | / | Inglés | / | Un conjunto de datos compila conjuntos de datos de Flan 2021, P3, Instrucciones sobrenaturales, junto con docenas de conjuntos de datos más en uno y los formatea en una combinación de plantillas de cero disparos, pocos disparos y cadena de pensamiento. |
Instrucción natural GitHub y descarga | serie tk-instruct | parejas, evaluación | Plurilingüe | / | Un punto de referencia con más de 1600 tareas con instrucción y definición para evaluar y mejorar la generalización multitarea de los modelos de lenguaje bajo instrucción en lenguaje natural. |
CruzWOZ | / | Diálogo | Inglés, Chino | Diálogos 6K | El conjunto de datos presentado en este artículo, principalmente sobre el tema del turismo en Beijing, las respuestas se generan automáticamente mediante reglas. |
Consideramos los elementos de la fila como asunto.
OIG | hh-rlhf | xP3 | instrucción natural | AlpacaDatosLimpiado | GPT-4-LLM | Alpaca-CoT | |
---|---|---|---|---|---|---|---|
OIG | / | contiene | superposición | superposición | superposición | superposición | |
hh-rlhf | parte de | / | superposición | ||||
xP3 | superposición | / | superposición | superposición | |||
instrucción natural | superposición | superposición | / | superposición | |||
AlpacaDatosLimpiado | superposición | / | superposición | superposición | |||
GPT-4-LLM | superposición | / | superposición | ||||
Alpaca-CoT | superposición | superposición | superposición | superposición | superposición | superposición | / |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
pila de pruebas | prueba-GPT | PT | Inglés Látex | 13GB | Un conjunto de datos de preentrenamiento que es similar a la pila pero que tiene un corpus LaTeX para mejorar la capacidad de prueba de LM. |
peS2o | / | PT | Inglés | 7,5GB | Un conjunto de datos de artículos académicos de alta calidad para preentrenamiento. |
Desbordamiento de pila correo | / | PT | / | 35GB | Datos sin procesar de StackOverflow en formato Markdown, para entrenamiento previo. |
SlimPijama | / | PT | Ante todo Inglés | / | Una versión limpia y deduplicada de RedPajama |
NMBVC | / | PT | Chino | / | Un conjunto de datos chinos de preentrenamiento a gran escala y que se actualiza continuamente. |
falcon-refinedweb | serie tiiuae/halcón | PT | Inglés | / | Un subconjunto refinado de CommonCrawl. |
Libro-150K | / | PT, conjunto de datos de construcción | Chino | Más de 150.000 libros | Un conjunto de datos sin procesar de libros chinos. Necesita alguna tubería de preproceso. |
rastreo común | LLaMA (Después de algún proceso) | construir conjuntos de datos, PT | / | / | El conjunto de datos sin procesar más conocido rara vez se utiliza directamente. Una posible canalización de preproceso es CCNet |
nlp_Chinese_Corpus | / | PT, TF | Chino | / | Un corpus chino previo al entrenamiento. Incluye Wikipedia, Baidu Baike, Baidu QA, algunos foros QA y corpus de noticias. |
La pila (V1) | GLM (en parte), LLaMA (en parte), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | PT | Plurilingüe, código | 825GB | Un conjunto de datos diverso de modelado de lenguajes de código abierto que consta de 22 conjuntos de datos más pequeños y de alta calidad que incluyen muchos dominios y tareas. |
C4 Conjunto de datos de Huggingface Conjunto de datos TensorFlow | Serie Google T5, LLaMA | PT | Inglés | 305GB | Una versión colosal y limpia del corpus de rastreo web de Common Crawl. Utilizarse con frecuencia. |
RAÍCES | FLORACIÓN | PT | Plurilingüe, código | 1,6 TB | Un conjunto de datos diverso de código abierto que consta de subconjuntos de datos como Wikipedia y StackExchange para modelado de lenguajes. |
PushshPairs reddit papel | OPT-175b | PT | / | / | Datos sin procesar de Reddit, un posible proceso de procesamiento en este documento |
Proyecto Gutenberg | Llama | PT | Plurilingüe | / | Un conjunto de datos de libros, en su mayoría novelas. No ser preprocesado. |
CLUECorpus | / | PT, afinar, evaluación | Chino | 100GB | Un corpus chino de preentrenamiento procedente de Common Crawl . |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
datos del codificador estelar | codificador de estrellas serie | PT | código | 783GB | Un gran conjunto de datos previo al entrenamiento para mejorar la capacidad de codificación de LM. |
código_ instrucciones _120k_alpaca | / | Pares | inglés/código | 121.959 entradas | code_instruction en formato de ajuste fino de instrucciones. |
función- invocaciones-25k | algunos MPT variantes | Pares | codigo ingles | 25K entradas | Un conjunto de datos tiene como objetivo enseñar a los modelos de IA cómo invocar correctamente las funciones APIsGuru basadas en indicaciones de lenguaje natural. |
TeoremaQA | / | Pares | Inglés | 800 | Un conjunto de datos de control de calidad de teorías STEM de alta calidad. |
fi-1 | fi-1 | Diálogo | Inglés | / | Un conjunto de datos generado utilizando el método de Los libros de texto son todo lo que necesita. Se centra en problemas de matemáticas y informática. |
FinNLP | FinGPT | Datos sin procesar | Inglés, Chino | / | Datos de textos financieros sin procesar de código abierto. Incluye noticias, redes sociales, etc. |
PRM800K | una variante de GPT-4 | Contexto | Inglés | 800.000 entradas | Un conjunto de datos de supervisión de procesos para problemas matemáticos. |
Datos de MeChat | YoChat | Diálogo | Chino | 355733 expresiones | Un conjunto de datos SFT chino para entrenar un chatbot de salud mental. |
Avisos de ChatGPT-Jailbreak | / | / | Inglés | Tamaño de archivo de 163 KB | Indicaciones para eludir la regulación de seguridad de ChatGPT. Puede usarse para probar la inocuidad de los LLM. |
chino impresionante recursos legales | LeyWGPT | / | Chino | / | Una recopilación de datos legales chinos para la formación de LLM. |
Forma larga | / | Pares | Inglés | 23,7K entradas | Un conjunto de datos tiene como objetivo mejorar la capacidad de generación de textos largos de LLM. |
sintonización-de-instrucción-simbólica | / | Pares | Inglés, código | 796 | Un conjunto de datos se centra en las tareas "simbólicas": como codificación SQL, cálculo matemático, etc. |
Aviso de seguridad | / | Sólo evaluación | Chino | 100k entradas | La seguridad china pide evaluar y mejorar la seguridad de los LLM. |
Limpiado por tapir | / | Pares | Inglés, | 116k entradas | Esta es una versión revisada del conjunto de datos DAISLab de reglas de PairsTT, que se ha limpiado, puntuado y ajustado minuciosamente con el fin de ajustar las instrucciones. |
instructivo_ códigosearchnet_python | / | Pares | Inglés & Pitón | 192MB | Este conjunto de datos es un conjunto de datos instructivo de Python generado a partir de una versión anotada del conjunto de datos code-search-net para el proyecto Open-Assistant. |
finanzas-alpaca | / | Pares | Inglés | 1,3 mil entradas | Un conjunto de datos estilo Alpaca pero centrado en temas financieros. |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
CompartirGPT4V | / | título de mensaje de imagen | Inglés | 1,2 millones de instancias | Un conjunto de datos de subtítulos multimodales con tecnología GPT4-Vision. |
OBÉLICOS | idéficas serie | documento-imagen | Inglés | 141 millones de documentos | una colección abierta, masiva y curada de documentos web de imágenes y texto entrelazados. |
ViajeDB | / | título de mensaje de imagen | Inglés | 4 millones de instancias | Un conjunto de datos a gran escala comprende tareas de control de calidad, subtítulos y mensajes de texto, que se basan en imágenes de Midjourney. |
M3IT | Ying-VLM | imagen-instrucción | Plurilingüe | 2,4 millones de instancias | Un conjunto de datos comprende 40 tareas con 400 instrucciones escritas por humanos. |
Imítalo | Nutria | imagen-instrucción | multilingüe | 2,2 millones de instancias | Pares instrucciones-respuesta multimodales de alta calidad basados en imágenes y vídeos. |
Instrucción LLaVA | LLaVA | imagen-instrucción | Inglés | 158k muestras | Un conjunto de datos multimodal generado a partir del conjunto de datos COCO solicitando a GPT-4 que obtenga instrucciones. |
Nombre del conjunto de datos | Utilizado por | Tipo | Idioma | Tamaño | Descripción ️ |
---|---|---|---|---|---|
WebText (enlaces de Reddit) | GPT-2 | PT | Inglés | / | Los datos se obtuvieron de Reddit y se filtraron para el preentrenamiento de GPT-2. |
texto masivo | tuza, chinchilla | PT | 99% inglés, 1% otros (incluido el código) | ||
WuDao(悟道) Corpora | GLM | PT | Chino | 200GB | Un corpus chino a gran escala. Posible componente originalmente de código abierto pero que ahora no está disponible. |