No processo de pesquisa do chatbot, além de ter um modelo maravilhoso, uma grande quantidade de materiais de treinamento também é necessária para fortalecer a eficácia do bot. Quanto mais limpo for o nosso corpus, mais inteligente será o chatbot capaz de gerar respostas humanas em linguagem natural. . (No processo de condução da pesquisa do Chatbot, além de ter um belo modelo, também precisamos de uma grande quantidade de corpus de treinamento para fortalecer nosso chatbot. Quanto mais limpo o corpus, mais próximo das respostas da linguagem natural humana o Chatbot pode ser treinado.)
dgk_shooter_min.conv corpus de diálogo do filme (corpus de diálogo do filme chinês, barulhento, porque o diálogo não distingue o locutor, é difícil corresponder à relação de pergunta e resposta do diálogo.)
Corpus de bate-papo multilíngue do ChatBot Corpus de diálogo multilíngue proposto pelo ChatterBot (O bate-papo em idioma básico fornecido pelo mecanismo de bate-papo do ChatterBot cobre uma ampla variedade de idiomas, mas a quantidade não é grande, mas a qualidade é alta e adequada para teste de modelo. )
Conjuntos de dados para processamento de linguagem natural Um pequeno resumo do corpus para pesquisas em papel (esta é uma coleção gerada por humanos de artigos de pesquisa em processamento de linguagem natural e conjuntos de dados correspondentes. As principais áreas de cobertura incluem: Resposta a perguntas, Sistemas de diálogo e Diálogo orientado a objetivos Sistema , etc. O texto é composto em inglês e pode ser usado para tradução automática e modelos conversacionais).
Um famoso corpus de diálogo “xiaohuangji ” publicado online (Não segmentado) As duas partes são separadas por "/" e não há divisão semântica. O corpus contém mais emoticons e o número geral de palavras no diálogo é menor e há mais ruído.)
Um conjunto de dados de pares de controle de qualidade chinês (composto por perguntas e respostas da seção de perguntas e respostas do fórum oficial do Egret Times). As respostas selecionam registros marcados com "melhores respostas" como alvo. Revise manualmente os dados e dê a cada pergunta respostas aceitáveis. Não muitos, principalmente no modo de perguntas e respostas)
Cornell_Movie-Dialogs_Corpus Cornell corpus de diálogos de filmes (coleta de dados de diálogos de filmes e televisão da Cornell University, o corpus contém informações sobre o nome do interlocutor, o corpus está em inglês, principalmente diálogos multi-turn).
Corpus de quadras chinesas Corpus de quadras chinesas com comprimento cinco (古文五语quadras)
Corpus de discursos políticos de Obama Corpus de discursos políticos de Obama (trechos dos discursos políticos do presidente Obama)
Corpus de notícias chinesas Notícias chinesas (manchetes e resumos rastreados dos principais sites de notícias usando rastreadores).
Tweets do painel de fofocas PTT Twittes PTT (use um rastreador para rastrear o conteúdo da seção de classificação de fofocas no software social PTT. Os dados originais são tweets.txt do painel de fofocas PTT, que inclui alguns símbolos e ruído espacial. Filtre o ruído (use estatísticas Após substituir o método por símbolos fixos proporcionalmente para reduzir a complexidade dos dados), o corpus e o dicionário de perguntas e respostas são estabelecidos por meio de diferentes métodos, como palavras ou frases únicas (parágrafos jieba).
Os direitos autorais do corpus público pertencem ao autor original e ninguém pode ser autorizado a investir em atividades lucrativas sem a sua permissão, obrigado pela sua cooperação. Invista em atividades com fins lucrativos em nome da pessoa).
Tags: Chatbot
Corpus