Téléchargement Chatbot Training Corpus - Téléchargement du code source Chatbot Training Corpus

Chatbot Training Corpus

Code Source AI

1.0.0

Télécharger

Ensembles de données de dialogue pour le chatbot de formation

Dans le processus de recherche du chatbot, outre le fait d'avoir un modèle merveilleux, une grande quantité de matériel de formation est également nécessaire pour renforcer l'efficacité du bot. Plus notre corpus est propre, plus le chatbot peut être intelligent, capable de générer des réponses en langage naturel humain. (Dans le processus de recherche sur le Chatbot, en plus d'avoir un beau modèle, nous avons également besoin d'une grande quantité de corpus de formation pour renforcer notre chatbot. Plus le corpus est propre, plus les réponses en langage naturel humain peuvent être formées par le Chatbot.)

Un résumé des corpus est présenté comme suit (la plupart des corpus actuellement publiés sur Internet sont des corpus bruyants et limités. Voici un résumé de certains corpus réalisables et de certains corpus obtenus à l'aide d'outils d'exploration, notamment :)

Corpus public de base (corpus public de base)

Corpus de dialogue de film dgk_shooter_min.conv (Corpus de dialogue de film chinois, bruyant, car le dialogue ne distingue pas le locuteur, il est difficile de correspondre à la relation questions-réponses du dialogue.)
- dgk_shooter_min.conv avec pré-traitement (pour le traitement du corpus du robot de chat) : data_preprocessing
Corpus de chat multilingue ChatBot Corpus de dialogue multilingue proposé par ChatterBot (Le chat en langue de base fourni par le moteur de chat ChatterBot couvre un large éventail de langues, mais la quantité n'est pas grande, mais la qualité est élevée et adaptée aux tests de modèles. )
Ensembles de données pour le traitement du langage naturel Un petit résumé du corpus pour les recherches sur papier (il s'agit d'une collection générée par l'homme de documents de recherche sur le traitement du langage naturel et des ensembles de données correspondants. Les principaux domaines de couverture comprennent : la réponse aux questions, les systèmes de dialogue et le dialogue orienté vers les objectifs. Système , etc. Le texte est composé d'anglais et peut être utilisé pour la traduction automatique et les modèles conversationnels).
Un célèbre corpus de dialogue « xiaohuangji » publié en ligne (Non segmenté) Les deux parties sont séparées par "/" , et il n'y a pas de division sémantique. Le corpus contient plus d'émoticônes, et le nombre total de mots dans le dialogue est moindre et il y a plus de bruit.)
Un ensemble de données de paires d'assurance qualité chinoises (composé de questions et de réponses de la section Q&A du forum officiel d'Egret Times). Les réponses sélectionnées enregistrent les « meilleures réponses » comme cible. Examinez manuellement les données et donnez à chaque question une réponse acceptable. Pas beaucoup, principalement en mode questions/réponses)
Cornell_Movie-Dialogs_Corpus Corpus de dialogues cinématographiques Cornell (collecte de données sur les dialogues cinématographiques et télévisuels de l'Université Cornell, le corpus contient des informations sur le nom de l'interlocuteur, le corpus est en anglais, principalement des dialogues à plusieurs tours.)
Corpus de quatrains chinois Corpus de quatrains chinois de longueur cinq (古文五语quatrains)
Corpus des discours politiques d'Obama Corpus des discours politiques d'Obama (Extraits des discours politiques du président Obama)

À partir du corpus d'exploration personnel Crawler (arrangement préliminaire)

Corpus d'actualités chinoises Actualités chinoises (titres et brèves d'actualités analysés à partir des principaux sites d'information à l'aide de robots d'exploration.)
Le tableau de potins PTT tweete les tweets PTT (utilisez un robot pour explorer le contenu de la section de classification des potins sur le logiciel social PTT. Les données originales sont le fichier tweets.txt du tableau de potins PTT, qui comprend certains symboles et du bruit spatial. Filtrez le bruit (utilisez les statistiques Après avoir remplacé la méthode par des symboles fixes proportionnellement pour réduire la complexité des données), le corpus de questions et réponses et le dictionnaire sont établis à travers différentes méthodes telles que des mots simples ou des phrases (paragraphes jieba).

Licence:

Le droit d’auteur du corpus public appartient à l’auteur original, et personne ne peut être autorisé à investir dans des activités lucratives sans sa permission, merci pour votre coopération. Investissez dans des activités lucratives en son nom).