Conjuntos de dados de alinhamento • Conjuntos de dados específicos de domínio • Conjuntos de dados de pré-treinamento ?️ Conjuntos de dados multimodais
Grandes modelos de linguagem (LLMs), como a série GPT da OpenAI, o Bard do Google e o Wenxin Yiyan do Baidu, estão impulsionando profundas mudanças tecnológicas. Recentemente, com o surgimento de grandes estruturas de modelos de código aberto, como LlaMa e ChatGLM, treinar um LLM não é mais domínio exclusivo de empresas ricas em recursos. O treinamento de LLMs por pequenas organizações ou indivíduos tornou-se um interesse importante na comunidade de código aberto, com alguns trabalhos notáveis, incluindo Alpaca, Vicuna e Luotuo. Além de grandes estruturas de modelos, corpora de treinamento em grande escala e de alta qualidade também são essenciais para o treinamento de grandes modelos de linguagem. Atualmente, corpora relevantes de código aberto na comunidade ainda estão dispersos. Portanto, o objetivo deste repositório é coletar continuamente corpora de treinamento de alta qualidade para LLMs na comunidade de código aberto.
Treinar um chatbot LLM que possa seguir instruções humanas de maneira eficaz requer acesso a conjuntos de dados de alta qualidade que cobrem uma variedade de domínios e estilos de conversação. Neste repositório, fornecemos uma coleção selecionada de conjuntos de dados projetados especificamente para treinamento de chatbot, incluindo links, tamanho, idioma, uso e uma breve descrição de cada conjunto de dados. Nosso objetivo é tornar mais fácil para pesquisadores e profissionais identificarem e selecionarem os conjuntos de dados mais relevantes e úteis para suas necessidades de treinamento em chatbot LLM. Esteja você trabalhando para melhorar a qualidade do diálogo do chatbot, a geração de respostas ou a compreensão do idioma, este repositório tem algo para você.
Se quiser contribuir, você pode entrar em contato:
Junhão Zhao?
Orientado pelo Prof. Wanyun Cui
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
ajudaSteer | / | RLHF | Inglês | 37 mil instâncias | Um conjunto de dados RLHF anotado por humanos com medidas de utilidade, correção, coerência, complexidade e verbosidade |
sem_robôs | / | OFVM | Inglês | Instância de 10k | Dados STF de alta qualidade criados por humanos, turno único. |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
Antrópico_ HH_Dourado | ULMA | Taxa de câmbio SFT | Inglês | treinar 42,5k + testar 2,3k | Melhorado no conjunto de dados inofensivo dos conjuntos de dados Úteis e Inofensivos (HH) da Anthropic. Usando GPT4 para reescrever a resposta "escolhida" original. Comparado com o conjunto de dados Harmless original, empiricamente este conjunto de dados melhora significativamente o desempenho dos métodos RLHF, DPO ou ULMA em métricas inofensivas. |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
função_ ligando_ estendido | / | Pares | Inglês código | / | Conjunto de dados de alta qualidade criado por humanos para aprimorar a capacidade de uso da API do LM. |
Histórias Americanas | / | PT | Inglês | / | Corpus de grande porte digitalizado da Biblioteca do Congresso dos EUA. |
dolma | OLMo | PT | / | Tokens 3T | Um grande e diversificado corpus de código aberto para pré-treinamento de LM. |
Ornitorrinco | Ornitorrinco2 | Pares | Inglês | 25 mil | Um conjunto de dados de altíssima qualidade para melhorar a capacidade de raciocínio STEM do LM. |
Papagaio-do-mar | Redmond Puffin Série | Diálogo | Inglês | ~3 mil entradas | Um conjunto de dados consiste em conversas entre humanos reais e GPT-4, que apresenta contexto longo (mais de 1 mil tokens por conversa) e diálogos multivoltas. |
pequena série | / | Pares | Inglês | / | Uma série de códigos ou textos curtos e concisos visa melhorar a capacidade de raciocínio do LM. |
LongBench | / | Avaliação Apenas | Inglês chinês | 17 tarefas | Uma referência para avaliar a capacidade de compreensão de contexto longo do LLM. |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
bate-papo orca | / | Diálogo | Inglês | 198.463 entradas | Um conjunto de dados de diálogo no estilo Orca visa melhorar a capacidade de conversação de longo contexto do LM. |
DialogStudio | / | Diálogo | Multilíngue | / | Uma coleção de diversos conjuntos de dados visa construir um Chatbot conversacional. |
chatbot_arena _conversas | / | RLHF Diálogo | Multilíngue | 33 mil conversas | Conversas limpas com preferências humanas em pares coletadas no Chatbot Arena. |
WebGLM-qa | WebGLm | Pares | Inglês | 43,6 mil entradas | Conjunto de dados usado pelo WebGLM, que é um sistema de controle de qualidade baseado em LLM e Internet. Cada entrada neste conjunto de dados inclui uma pergunta, uma resposta e uma referência. A resposta está fundamentada na referência. |
phi-1 | phi-1 | Diálogo | Inglês | / | Um conjunto de dados gerado usando o método em Textbooks Are All You Need. Ele se concentra em problemas de matemática e ciência da computação. |
Linly- pré-treinamento- conjunto de dados | Série Linly | PT | chinês | 3,4 GB | O conjunto de dados de pré-treinamento chinês usado pelo modelo da série Linly compreende ClueCorpusSmall, rastreamento de notícias CSL e etc. |
RLHF de granulação fina | / | RLHF | Inglês | ~5 mil exemplos | Um repo visa desenvolver uma nova estrutura para coletar feedbacks humanos. Os dados coletados têm como objetivo melhorar a correção factual do LLM, a relevância do tópico e outras habilidades. |
golfinho | / | Pares | Inglês | 4,5 milhões de entradas | Uma tentativa de replicar o Orca da Microsoft. Baseado em FLANv2. |
chat aberto_ compartilhargpt4_ conjunto de dados | OpenChat | Diálogo | Inglês | 6k diálogos | Um conjunto de dados de alta qualidade gerado usando GPT-4 para completar prompts refinados do ShareGPT. |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
OpenOrca | / | Pares | Inglês | 4,5 milhões de conclusões | Uma coleção de dados FLAN aumentados. Gerado usando o método é papel Orca. |
COIG-PC COIG-Lite | / | Pares | chinês | / | Versão aprimorada do COIG. |
WizardLM_Orca | série orca_mini | Pares | Inglês | 55 mil entradas | Dados aprimorados do WizardLM. Gerado usando o método orca. |
conjuntos de dados de instruções arxiv matemática CS Física | / | Pares | Inglês | 50 mil/ 50 mil/ 30 mil entradas | o conjunto de dados consiste em pares de perguntas e respostas derivados de resumos do ArXiv. As perguntas são geradas usando o modelo base t5, enquanto as respostas são geradas usando o modelo GPT-3.5-turbo. |
estou-sentindo- curioso | / | Pares | Inglês | 2595 entradas | Perguntas aleatórias e fatos correspondentes gerados pelo Google estou sentindo características curiosas . |
ign_clean _instruir _conjunto de dados_500k | / | Pares | / | 509 mil entradas | Um conjunto de dados SFT em grande escala que é criado sinteticamente a partir de um subconjunto de prompts do Ultrachat. falta de cartão de dados detalhado |
WizardLM evoluir_instruir V2 | WizardLM | Diálogo | Inglês | 196 mil entradas | A versão mais recente do conjunto de dados Evolve Instruct. |
Dinossauro | / | Pares | Inglês | 800 mil entradas | O conjunto de dados gerado pela aplicação do método neste artigo. Destaque para a geração de dados de alta qualidade com baixo custo. |
SlimPijama | / | PT | Principalmente Inglês | / | Uma versão limpa e desduplicada do RedPajama |
Conjunto de dados LIMA | LIMA | Pares | Inglês | 1k entradas | Conjunto de dados SFT de alta qualidade usado pela LIMA: Menos é Mais para Alinhamento |
Série TigerBot | TigerBot | PT Pares | chinês Inglês | / | Conjuntos de dados usados para treinar o TigerBot, incluindo dados de pré-treinamento, dados STF e alguns conjuntos de dados específicos de domínio, como relatórios de pesquisa financeira. |
TSI-v0 | / | Pares | Inglês | 30 mil exemplos por tarefa | Dados de ajuste de instruções multitarefa reformulados de 475 conjuntos de dados de origem de tarefas. Semelhante ao conjunto de dados Flan e à instrução Natural. |
NMBVC | / | PT | chinês | / | Um conjunto de dados de pré-treinamento chinês em grande escala e continuamente atualizado. |
StackOverflow publicar | / | PT | / | 35 GB | Dados brutos do StackOverflow em formato markdown, para pré-treinamento. |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
Instrução LaMini | / | Pares | Inglês | 2,8 milhões de entradas | Um conjunto de dados extraído da coleta de flan, p3 e autoinstrução. |
ultraChat | / | Diálogo | Inglês | 1,57 milhões de diálogos | Um conjunto de dados de diálogo em grande escala criado usando dois ChatGPT, um dos quais atua como usuário e outro gera resposta. |
CompartilharGPT_ Vicuna_não filtrada | Vicunha | Pares | Multilíngue | 53 mil entradas | Conjunto de dados ShareGPT limpo. |
conjunto de dados pku-saferlhf | Castor | RLHF | Inglês | 10 mil + 1 milhão | O primeiro conjunto de dados desse tipo e contém 10 mil instâncias com preferências de segurança. |
Conjunto de dados RefGPT link não oficial | RefGPT | Pares, Diálogo | chinês | ~50 mil entradas | Um conjunto de dados de diálogo chinês visa melhorar a exatidão dos fatos nos LLMs (mitigar a alucinação do LLM). |
Luotuo-QA-A CoQA-Chinês | Projeto Luotuo | Contexto | chinês | 127 mil pares de controle de qualidade | Um conjunto de dados baseado em CoQA traduzido. Aumentado usando a API OpenAI. |
Wizard-LM-Chinês instruir-evol | Projeto Luotuo | Pares | chinês | ~70 mil entradas | Versão chinesa WizardLM 70K. As respostas são obtidas por meio de perguntas traduzidas por feed na API GPT da OpenAI e, em seguida, obtêm-se as respostas. |
alpaca_chinês conjunto de dados | / | Pares | chinês | / | Os dados de alpaca traduzidos pelo GPT-4 incluem alguns dados complementares (como poesia chinesa, aplicação, etc.). Inspecionado por humanos. |
Zhihu-KOL | Abrir Assistente | Pares | chinês | 1,5 GB | Dados de controle de qualidade na conhecida plataforma chinesa de controle de qualidade Zhihu. |
Alpaca-GPT-4_zh-cn | / | Pares | chinês | cerca de 50 mil entradas | Um conjunto de dados no estilo Chinese Alpaca, gerado pelo GPT-4 originalmente em chinês, não traduzido. |
hh-rlhf em Huggingface | Coala | RLHF | Inglês | 161 mil pares 79,3 MB | Um conjunto de dados pareados para treinar modelos de recompensa na aprendizagem por reforço para melhorar a inocuidade e a utilidade dos modelos de linguagem. |
Conjunto de dados Panther_v1 | Pantera | Pares | Inglês | 377 entradas | Um conjunto de dados vem do hh-rlhf. Ele reescreve hh-rlhf na forma de pares de entrada-saída. |
Conjunto de dados Baize | Baize | Diálogo | Inglês | 100 mil diálogos | Um conjunto de dados de diálogo gerado pelo GPT-4 usando conversação automática. Perguntas e tópicos são coletados do Quora, StackOverflow e algumas fontes de conhecimento médico. |
h2ogpt-fortune2000 personalizado | h2ogpt | Pares | Inglês | 11363 entradas | Uma instrução de ajuste fino desenvolvida pela h2oai abordou vários tópicos. |
PCH | EstávelVicuna, opção de bate-papo, , SteamSHP | RLHF | Inglês | 385 mil entradas | Um conjunto de dados RLHF diferente dos mencionados anteriormente, utiliza pontuações+timestamps para inferir as preferências dos usuários. Abrange 18 domínios, coletados por Stanford. |
ELI5 | Série MiniLM | Pés, RLHF | Inglês | 270 mil entradas | Perguntas e respostas coletadas do Reddit, incluindo pontuação. Pode ser usado para treinamento de modelo de recompensa RLHF. |
WizardLM evol_instruct V2 | WizardLM | Pares | Inglês | Um conjunto de dados de ajuste fino de instruções derivado do Alpaca-52K, usando o método de evolução neste artigo | |
Dados MOSS SFT | MUSGO | Pares, Diálogo | Chinês, Inglês | 1,1 milhão de entradas | Um conjunto de dados conversacionais coletados e desenvolvidos pela equipe MOSS. Possui rótulos de utilidade, lealdade e inocuidade para todas as entradas de dados. |
CompartilharGPT52K | Coala, Estável LLM | Pares | Multilíngue | 52K | Este conjunto de dados compreende conversas coletadas do ShareGPT, com foco específico em conversas criativas personalizadas. |
Conjunto de dados GPT-4all | GPT-4tudo | Pares | Inglês, Poderia ter uma versão traduzida | 400 mil entradas | Uma combinação de alguns subconjuntos de OIG, P3 e Stackoverflow. Abrange tópicos como controle de qualidade geral e questões criativas personalizadas. |
COIG | / | Pares | Chinês, código | 200 mil entradas | Um conjunto de dados baseado na China. Ele contém domínios como controle de qualidade de uso geral, exames chineses e código. Sua qualidade é verificada por anotadores humanos. |
RedPijama-Data-1T | Pijama vermelho | PT | Principalmente inglês | Tokens 1.2T 5 TB | Um conjunto de dados de pré-treinamento totalmente aberto segue o método do LLaMA. |
OASST1 | OpenAssistant | Pares, Diálogo | Multilíngue (inglês, espanhol, etc.) | 66.497 árvores de conversação | Um grande conjunto de dados de conversação de alta qualidade, escrito e anotado por humanos. O objetivo é fazer com que o LLM gere uma resposta mais natural. |
Alpaca-COT | Fênix | Pares, Diálogo, Berço | Inglês | / | Uma mistura de muitos conjuntos de dados, como o conjunto de dados clássico Alpaca, OIG, Guanaco e alguns conjuntos de dados CoT (Cadeia de Pensamento), como FLAN-CoT. Pode ser útil de usar. |
Bactriano-X | / | Pares | Multilíngue (52 idiomas) | 67 mil entradas por idioma | Uma versão multilíngue do Alpaca e Dolly-15K . |
databricks-dolly-15k zh-cn Ver | Boneca2.0 | Pares | Inglês | Mais de 15 mil entradas | Um conjunto de dados de solicitações e respostas escritas por humanos , apresentando tarefas como resposta a perguntas de domínio aberto, brainstorming, resumo e muito mais. |
AlpacaDataCleaned | Alguns modelos do tipo Alpaca/LLaMA | Pares | Inglês | / | Versão limpa do Alpaca, GPT_LLM e GPTeacher. |
Conjunto de dados GPT-4-LLM | Alguns modelos tipo Alpaca | Pares, RLHF | Inglês, chinês | 52 mil entradas para inglês e chinês, respectivamente 9K entradas de instrução não natural | NÃO é o conjunto de dados usado pelo GPT-4!! É gerado pelo GPT-4 e alguns outros LLM para melhores pares e RLHF. Inclui dados de instrução, bem como dados de comparação no estilo RLHF. |
Professor GP | / | Pares | Inglês | 20 mil entradas | Um conjunto de dados contém alvos gerados pelo GPT-4 e inclui muitas das mesmas tarefas iniciais do conjunto de dados Alpaca, com a adição de algumas novas tarefas, como roleplay. |
HC3 | Coala | RLHF | Inglês, chinês | 24322 Inglês 12853 Chinês | Um conjunto de dados de comparação humano vs ChatGPT de vários domínios. Pode ser usado para treinamento de modelo de recompensa ou treinamento de detector ChatGPT. |
Dados da alpaca Download | Alpaca, ChatGLM-finetune-LoRA, Koala | Diálogo, Pares | Inglês | 52 mil entradas 21,4 MB | Um conjunto de dados gerado por text-davinci-003 para melhorar a capacidade dos modelos de linguagem de seguir a instrução humana. |
EIG OIG-chip pequeno2 | Pythia-Chat-Base-7B, GPT-NeoXT-Chat-Base-20B, Koala | Diálogo, Pares | Inglês, código | 44 milhões de entradas | Um grande conjunto de dados de instruções de conversação com subconjuntos de média e alta qualidade (OIG-small-chip2) para aprendizagem multitarefa. |
Dados do ChatAlpaca | / | Diálogo, Pares | Inglês, Versão chinesa em breve | 10 mil entradas 39,5 MB | Um conjunto de dados visa ajudar os pesquisadores a desenvolver modelos para seguir instruções em conversas múltiplas. |
Instrução Selvagem | Colossal Bate-papo | Pares | Inglês, Chinês | 10 mil entradas | Um conjunto de dados no estilo Alpaca, mas com tarefas iniciais vem da captura de tela do chatgpt. |
Firefly (流萤) | Firefly (流萤) | Pares | chinês | 1,1 milhão de entradas 1,17 GB | Um conjunto de dados de ajuste de instruções chinês com 1,1 milhão de exemplos escritos por humanos em 23 tarefas, mas sem conversação. |
BELA Versão 0,5M Versão 1M Versão 2M | Série BELLE, Chunhua (春华) | Pares | chinês | 2,67 bilhões no total | Um conjunto de dados de instruções chinesas semelhante aos dados do Alpaca construído pela geração de respostas a partir de tarefas iniciais, mas sem conversação. |
GuanacoDataset | Guanaco | Diálogo, Pares | Inglês, Chinês, japonês | 534.530 entradas | Um conjunto de dados de instrução multilíngue para aprimorar as capacidades dos modelos linguísticos em diversas tarefas linguísticas, como compreensão de linguagem natural e reconhecimento de conteúdo explícito. |
OpenAI WebGPT | Modelo de recompensa do WebGPT, Koala | RLHF | Inglês | 19.578 pares | Conjunto de dados usado no artigo WebGPT. Usado para modelo de recompensa de treinamento em RLHF. |
OpenAI Resumo Comparação | Coala | RLHF | Inglês | ~93 mil entradas 420 MB | Um conjunto de dados de feedback humano que ajuda a treinar um modelo de recompensa. O modelo de recompensa foi então usado para treinar um modelo de resumo para se alinhar às preferências humanas. |
auto-instruir | / | Pares | Inglês | 82 mil entradas | O conjunto de dados gerado usando o conhecido método de autoinstrução |
instruções não naturais | / | Pares | Inglês | 240.670 exemplos | Uma tentativa inicial de usar um modelo poderoso (text-davinci-002) para gerar dados. |
xP3 (e alguma variante) | FLORZ, mT0 | Pares | Multilíngue, código | 79 milhões de entradas 88 GB | Um conjunto de dados de instruções para melhorar a capacidade de generalização dos modelos de linguagem, semelhante ao Natural Instruct . |
Pudim V2 | / | / | Inglês | / | Um conjunto de dados compila conjuntos de dados de Flan 2021, P3, Instruções Sobrenaturais, junto com dezenas de outros conjuntos de dados em um e os formata em uma mistura de modelos de disparo zero, poucos disparos e cadeia de pensamento |
Instrução Natural GitHub e baixar | série tk-instruct | Pares, avaliação | Multilíngue | / | Uma referência com mais de 1.600 tarefas com instrução e definição para avaliar e melhorar a generalização multitarefa de modelos de linguagem no ensino de linguagem natural. |
CrossWOZ | / | Diálogo | Inglês, chinês | Diálogos de 6K | No conjunto de dados apresentado neste artigo, principalmente sobre o tema turismo em Pequim, as respostas são geradas automaticamente por regras. |
Consideramos itens de linha como assunto.
EIG | hh-rlhf | xP3 | instrução natural | AlpacaDataCleaned | GPT-4-LLM | Alpaca-CoT | |
---|---|---|---|---|---|---|---|
EIG | / | contém | sobreposição | sobreposição | sobreposição | sobreposição | |
hh-rlhf | parte de | / | sobreposição | ||||
xP3 | sobreposição | / | sobreposição | sobreposição | |||
instrução natural | sobreposição | sobreposição | / | sobreposição | |||
AlpacaDataCleaned | sobreposição | / | sobreposição | sobreposição | |||
GPT-4-LLM | sobreposição | / | sobreposição | ||||
Alpaca-CoT | sobreposição | sobreposição | sobreposição | sobreposição | sobreposição | sobreposição | / |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
pilha de provas | prova-GPT | PT | Inglês Látex | 13 GB | Um conjunto de dados de pré-treinamento que é semelhante à pilha, mas possui corpus LaTeX para aprimorar a capacidade de prova do LM. |
peS2o | / | PT | Inglês | 7,5 GB | Um conjunto de dados de artigos acadêmicos de alta qualidade para pré-treinamento. |
StackOverflow publicar | / | PT | / | 35 GB | Dados brutos do StackOverflow em formato markdown, para pré-treinamento. |
SlimPijama | / | PT | Principalmente Inglês | / | Uma versão limpa e desduplicada do RedPajama |
NMBVC | / | PT | chinês | / | Um conjunto de dados de pré-treinamento chinês em grande escala e continuamente atualizado. |
web refinada com falcão | série tiiuae/falcão | PT | Inglês | / | Um subconjunto refinado de CommonCrawl. |
CBook-150K | / | PT, construindo conjunto de dados | chinês | Mais de 150 mil livros | Um conjunto de dados brutos de livros chineses. Precisa de algum pipeline de pré-processamento. |
Rastreamento comum | LLaMA (após algum processo) | construindo conjuntos de dados, PT | / | / | O conjunto de dados brutos mais conhecido, raramente usado diretamente. Um possível pipeline de pré-processamento é CCNet |
nlp_Chinese_Corpus | / | PT, TF | chinês | / | Um corpus pré-treinamento chinês. Inclui Wikipedia, Baidu Baike, Baidu QA, alguns fóruns de controle de qualidade e corpus de notícias. |
A pilha (V1) | GLM (parcialmente), LLaMA (parcialmente), GPT-J, GPT-NeoX-20B, Cerebras-GPT 6.7B, OPT-175b | PT | Multilíngue, código | 825 GB | Um conjunto de dados diversificado de modelagem de linguagem de código aberto que consiste em 22 conjuntos de dados menores e de alta qualidade que inclui muitos domínios e tarefas. |
C4 Conjunto de dados Huggingface Conjunto de dados TensorFlow | Série Google T5, LLaMA | PT | Inglês | 305 GB | Uma versão colossal e limpa do corpus de rastreamento da web do Common Crawl. Freqüentemente ser usado. |
RAÍZES | FLORESCER | PT | Multilíngue, código | 1,6 TB | Um conjunto de dados diversificado de código aberto que consiste em subconjuntos de dados como Wikipedia e StackExchange para modelagem de linguagem. |
PushshPairs reddit papel | OPT-175b | PT | / | / | Dados brutos do Reddit, um possível pipeline de processamento neste artigo |
Projeto Gutenberg | LLaMA | PT | Multilíngue | / | Um conjunto de dados de livros, principalmente romances. Não ser pré-processado. |
CLUECorpus | / | PT, afinar, avaliação | chinês | 100 GB | Um Corpus de pré-treinamento chinês proveniente de Common Crawl . |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
starcoderdata | codificador estelar série | PT | código | 783 GB | Um grande conjunto de dados de pré-treinamento para melhorar a capacidade de codificação do LM. |
código_ instruções _120k_alpaca | / | Pares | Inglês/código | 121.959 entradas | code_instruction no formato de ajuste fino de instrução. |
função- invocações-25k | algum MPT variantes | Pares | Código inglês | 25 mil entradas | Um conjunto de dados visa ensinar modelos de IA como invocar corretamente funções APIsGuru com base em prompts de linguagem natural. |
TeoremaQA | / | Pares | Inglês | 800 | Um conjunto de dados de controle de qualidade de teorema STEM de alta qualidade. |
phi-1 | phi-1 | Diálogo | Inglês | / | Um conjunto de dados gerado usando o método em Textbooks Are All You Need. Ele se concentra em problemas de matemática e ciência da computação. |
FinNLP | FinGPT | Dados brutos | Inglês, chinês | / | Dados de texto financeiro bruto de código aberto. Inclui notícias, mídias sociais e etc. |
PRM800K | Uma variante de GPT-4 | Contexto | Inglês | 800 mil entradas | Um conjunto de dados de supervisão de processo para problemas matemáticos |
Dados do MeChat | MeChat | Diálogo | chinês | 355733 declarações | Um conjunto de dados SFT chinês para treinar um chatbot de saúde mental. |
Solicitações de ChatGPT-Jailbreak | / | / | Inglês | Tamanho do arquivo de 163 KB | Solicita para contornar o regulamento de segurança do ChatGPT. Pode ser usado para testar a inocuidade dos LLMs |
incrível chinês recursos legais | LeiWGPT | / | chinês | / | Uma coleção de dados jurídicos chineses para treinamento LLM. |
Formulário longo | / | Pares | Inglês | 23,7 mil entradas | Um conjunto de dados visa melhorar a capacidade de geração de textos longos do LLM. |
ajuste de instrução simbólica | / | Pares | Inglês, código | 796 | Um conjunto de dados concentra-se nas tarefas “simbólicas”: como codificação SQL, computação matemática, etc. |
Alerta de segurança | / | Apenas avaliação | chinês | 100 mil entradas | Solicitações de segurança chinesas para avaliar e melhorar a segurança dos LLMs. |
Limpo pela anta | / | Pares | Inglês, | 116 mil entradas | Esta é uma versão revisada do conjunto de dados DAISLab de regras PairsTT, que foi completamente limpo, pontuado e ajustado para fins de ajuste de instrução |
instrucional_ códigosearchnet_python | / | Pares | Inglês & Pitão | 192 MB | Este conjunto de dados é um modelo de dados instrucional Python gerado a partir de uma versão anotada do conjunto de dados code-search-net para o projeto Open-Assistant. |
finanças-alpaca | / | Pares | Inglês | 1,3 mil entradas | Um conjunto de dados no estilo Alpaca, mas com foco em tópicos financeiros |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
CompartilharGPT4V | / | legenda de prompt de imagem | Inglês | 1,2 milhões de instâncias | Um conjunto de dados de legendas multimodais alimentados por GPT4-Vision. |
OBÉLICOS | idefics série | documento-imagem | Inglês | 141 milhões de documentos | uma coleção aberta, massiva e com curadoria de documentos da web de imagem e texto intercalados. |
JornadaDB | / | legenda de prompt de imagem | Inglês | 4 milhões de instâncias | Um conjunto de dados em grande escala compreende tarefas de controle de qualidade, legenda e solicitação de texto, baseadas em imagens Midjourney. |
M3IT | Ying-VLM | imagem de instrução | Multilíngue | 2,4 milhões de instâncias | Um conjunto de dados compreende 40 tarefas com 400 instruções escritas por humanos. |
MIMIC-IT | Lontra | imagem de instrução | Multilíngue | 2,2 milhões de instâncias | Pares instruções-resposta multimodais de alta qualidade baseados em imagens e vídeos. |
Instrução LLaVA | LLaVA | imagem de instrução | Inglês | 158 mil amostras | Um conjunto de dados multimodal gerado no conjunto de dados COCO solicitando que o GPT-4 obtenha instruções. |
Nome do conjunto de dados | Usado por | Tipo | Linguagem | Tamanho | Descrição ️ |
---|---|---|---|---|---|
WebText (links do Reddit) | GPT-2 | PT | Inglês | / | Dados rastreados do Reddit e filtrados para pré-treinamento GPT-2. |
MassiveText | Esquilo, Chinchila | PT | 99% inglês, 1% outro (incluindo código) | ||
WuDao(悟道) Corpora | GLM | PT | chinês | 200 GB | Um corpus chinês em grande escala, possível componente originalmente de código aberto, mas não disponível no momento. |