Ensembles de données pour la formation du système Chatbot
Ce projet rassemble des matériaux de dialogue trouvés sur Internet pour former des robots de discussion en chinois (anglais).
Certains des ensembles de données collectés sont les suivants, cliquez sur le lien pour saisir l'adresse d'origine
dgk_shooter_min.conv.zip
Le corpus des dialogues cinématographiques chinois est relativement bruyant et de nombreux dialogues n'ont pas de bonnes relations questions-réponses.
Le corpus SMS NUS
Contient un corpus de messages courts en chinois et en anglais, considéré comme le plus grand corpus public de messages courts au monde.
Corpus de discussion de base en chinois ChatterBot
Le moteur de discussion ChatterBot fournit un corpus de discussion chinois de base. La quantité est faible, mais la qualité est relativement élevée.
Ensembles de données pour le traitement du langage naturel
Il s'agit d'un ensemble de données liées au traitement du langage naturel collectées par d'autres. Il comprend principalement trois parties : la réponse aux questions, les systèmes de dialogue et les systèmes de dialogue orientés vers les objectifs, qui sont tous des textes anglais. Peut utiliser la traduction automatique vers le chinois pour une utilisation dans les conversations en chinois
Xiaohuangji On dit qu'il s'agit du corpus de Xiaohuangji50w_fenciA.conv.zip (segmenté) et xiaohuangji50w_nofenci.conv.zip (non segmenté)
Le corpus chinois de questions et réponses d'Egret Times est compilé à partir de plus de 10 000 questions dans la section Q&A du forum officiel d'Egret Times, et les enregistrements marqués de la « meilleure réponse » sont sélectionnés. Examinez manuellement les données brutes et donnez à chaque question une réponse acceptable. Actuellement, le corpus ne contient que 2907 questions et réponses. (sauvegarde)
Référentiel de corpus de discussion
collection de corpus de discussion provenant de diverses sources ouvertes
Comprend : sous-titres ouverts, sous-titres de films en anglais, paroles en chinois, tweets en anglais
Le corpus QA du secteur de l’assurance est un ensemble de données généré par la traduction d’assuranceQA. train_data contient 12 889 questions, 141 779 données, exemples positifs : exemples négatifs = 1:10 ; test_data contient 2 000 questions, 22 000 données, exemples positifs : exemples négatifs = 1:10 ; valid_data contient 2 000 questions, 22 000 données, exemple positif : exemple négatif = 1:10
Cette partie du corpus a circulé sur Internet, mais en raison de nos capacités limitées ou parce que l'auteur original ne l'a pas rendue publique, elle n'a pas encore été obtenue. Je viens d'être répertorié pour une recherche future.
Tout le corpus original appartient à l'auteur original
He Yunchao
weibo : @Yunchao_He