Datensätze für das Training des Chatbot-Systems
Dieses Projekt sammelt einige im Internet gefundene Dialogmaterialien für das Training chinesischer (englischer) Chat-Roboter
Einige der gesammelten Datensätze sind wie folgt: Klicken Sie auf den Link, um die ursprüngliche Adresse einzugeben
dgk_shooter_min.conv.zip
Das Dialogkorpus chinesischer Filme ist relativ laut und viele Dialoge weisen keine guten Frage-Antwort-Beziehungen auf.
Das NUS SMS Corpus
Enthält chinesisches und englisches Kurznachrichtenkorpus, das als das größte öffentliche Kurznachrichtenkorpus der Welt gilt.
ChatterBot Chinesisch-Basis-Chat-Korpus
Die ChatterBot-Chat-Engine bietet einige grundlegende chinesische Chat-Körper. Die Menge ist gering, aber die Qualität ist relativ hoch.
Datensätze für die Verarbeitung natürlicher Sprache
Hierbei handelt es sich um einen von anderen gesammelten Datensatz zur Verarbeitung natürlicher Sprache. Er umfasst hauptsächlich drei Teile: Fragebeantwortung, Dialogsysteme und zielorientierte Dialogsysteme, bei denen es sich ausschließlich um englische Texte handelt. Kann maschinelle Übersetzung ins Chinesische zur Verwendung in chinesischen Gesprächen verwenden
Xiaohuangji Es wird gesagt, dass dies der Korpus von Xiaohuangji50w_fenciA.conv.zip (segmentiert) und xiaohuangji50w_nofenci.conv.zip (unsegmentiert) ist.
Der chinesische Frage- und Antwortkorpus von Egret Times wird aus den über 10.000 Fragen im Q&A-Bereich des offiziellen Forums von Egret Times zusammengestellt und Datensätze, die mit der „besten Antwort“ gekennzeichnet sind, werden ausgewählt. Überprüfen Sie die Rohdaten manuell und geben Sie für jede Frage eine akzeptable Antwort. Derzeit enthält das Korpus nur 2907 Fragen und Antworten. (Sicherung)
Chat-Korpus-Repository
Chat-Korpus-Sammlung aus verschiedenen offenen Quellen
Enthält: offene Untertitel, englische Filmuntertitel, chinesische Liedtexte, englische Tweets
Das QA-Korpus der Versicherungsbranche ist ein Datensatz, der durch die Übersetzung von InsuranceQA generiert wird. train_data enthält 12.889 Fragen, 141.779 Daten, positive Beispiele: negative Beispiele = 1:10; test_data enthält 2.000 Fragen, 22.000 Daten, positive Beispiele: negative Beispiele = 1:10; valid_data enthält 2.000 Fragen, 22.000 Daten, positive Beispiele: negative Beispiele = 1:10
Dieser Teil des Korpus wurde im Internet verbreitet, aber aufgrund unserer begrenzten Möglichkeiten oder weil der ursprüngliche Autor ihn nicht veröffentlicht hat, konnte er noch nicht beschafft werden. Nur für zukünftige Suche aufgelistet.
Der gesamte Originalkorpus gehört dem ursprünglichen Autor
Er Yunchao
weibo: @Yunchao_He