Conjuntos de dados para sistema de chatbot de treinamento
Este projeto coleta alguns materiais de diálogo encontrados na Internet para treinar robôs de bate-papo em chinês (inglês).
Alguns dos conjuntos de dados coletados são os seguintes, clique no link para inserir o endereço original
dgk_shooter_min.conv.zip
O corpus de diálogos de filmes chineses é relativamente barulhento e muitos diálogos não têm boas relações entre perguntas e respostas.
O NUS SMS Corpus
Contém corpus de mensagens curtas em chinês e inglês, considerado o maior corpus público de mensagens curtas do mundo.
Corpus de bate-papo básico chinês do ChatterBot
O mecanismo de bate-papo do ChatterBot fornece alguns corpus básicos de bate-papo em chinês. A quantidade é pequena, mas a qualidade é relativamente alta.
Conjuntos de dados para processamento de linguagem natural
Este é um conjunto de dados relacionados ao processamento de linguagem natural coletados por terceiros. Inclui principalmente três partes: Resposta a Perguntas, Sistemas de Diálogo e Sistemas de Diálogo Orientados a Objetivos, todos textos em inglês. Pode usar tradução automática para chinês para uso em conversas em chinês
Xiaohuangji Diz-se que este é o corpus de Xiaohuangji50w_fenciA.conv.zip (segmentado) e xiaohuangji50w_nofenci.conv.zip (não segmentado)
O corpus chinês de perguntas e respostas do Egret Times é compilado a partir de mais de 10.000 perguntas na seção de perguntas e respostas do fórum oficial do Egret Times, e os registros marcados com a "melhor resposta" são selecionados. Revise manualmente os dados brutos e dê a cada pergunta uma resposta aceitável. Atualmente, o corpus contém apenas 2.907 perguntas e respostas. (backup)
Repositório de corpus de bate-papo
coleção de corpus de bate-papo de várias fontes abertas
Inclui: legendas abertas, legendas de filmes em inglês, letras em chinês, tweets em inglês
O corpus de controle de qualidade do setor de seguros é um conjunto de dados gerado pela tradução do controle de qualidade do seguro. train_data contém 12.889 questões, 141.779 dados, exemplos positivos: exemplos negativos = 1:10; test_data contém 2.000 questões, 22.000 dados, exemplos positivos: exemplos negativos = 1:10; 1:10
Esta parte do corpus circulou na Internet, mas devido à nossa capacidade limitada ou ao autor original não a ter tornado pública, ainda não foi obtida. Apenas listado para pesquisa futura.
Todo o corpus original pertence ao autor original
Ele Yun Chao
weibo: @Yunchao_He