Im Forschungsprozess des Chatbots ist neben einem wunderbaren Modell auch eine große Menge an Schulungsmaterialien erforderlich, um die Wirksamkeit des Bots zu stärken. Je sauberer unser Korpus, desto intelligenter kann der Chatbot sein, der in der Lage ist, menschliche Antworten in natürlicher Sprache zu generieren (Bei der Durchführung von Chatbot-Forschung benötigen wir nicht nur ein schönes Modell, sondern auch eine große Menge an Trainingskorpus, um unseren Chatbot zu stärken. Je sauberer der Korpus, desto näher können die Antworten des Chatbots an der natürlichen Sprache des Menschen trainiert werden.)
dgk_shooter_min.conv Filmdialogkorpus (Chinesischer Filmdialogkorpus, laut, da der Dialog den Sprecher nicht unterscheidet, ist es schwierig, der Frage-Antwort-Beziehung des Dialogs zu entsprechen. )
Mehrsprachiges Chat-Korpus von ChatBot Von ChatterBot vorgeschlagenes mehrsprachiges Dialog-Korpus (Der von der ChatterBot-Chat-Engine bereitgestellte Basissprachen-Chat deckt ein breites Spektrum an Sprachen ab, aber die Menge ist nicht groß, aber die Qualität ist hoch und für Modelltests geeignet. )
Datensätze für die Verarbeitung natürlicher Sprache Eine kleine Zusammenfassung des Korpus für Papierrecherchen (Dies ist eine von Menschen erstellte Sammlung von Forschungsarbeiten zur Verarbeitung natürlicher Sprache und entsprechenden Datensätzen. Die Hauptbereiche umfassen: Beantwortung von Fragen, Dialogsysteme und zielorientierter Dialog System usw. Der Text besteht aus Englisch und kann für maschinelle Übersetzung und Konversationsmodelle verwendet werden.
Ein berühmtes Dialogkorpus „xiaohuangji “ , online veröffentlicht (Unsegmentiert) Die beiden Teile werden durch „/“ getrennt und es gibt keine semantische Trennung. Der Korpus enthält mehr Emoticons und die Gesamtzahl der Wörter im Dialog ist geringer und es gibt mehr Rauschen.)
Ein chinesischer QA-Paar-Datensatz (bestehend aus Fragen und Antworten aus dem Q&A-Bereich des offiziellen Forums von Egret Times). Überprüfen Sie die Daten manuell und geben Sie für jede Frage akzeptable Antworten . Nicht viele, meist im Frage-Antwort-Modus)
Cornell_Movie-Dialogs_Corpus Cornell Filmdialogkorpus (Datensammlung zu Film- und Fernsehdialogen der Cornell University, das Korpus enthält Informationen zum Namen des Gesprächspartners, das Korpus ist auf Englisch, hauptsächlich Dialoge mit mehreren Runden.)
Chinesischer Vierzeiler-Korpus Chinesischer Vierzeiler-Korpus mit der Länge fünf (古文五语Quatrains)
Korpus der politischen Reden Obamas Korpus der politischen Reden Obamas (Auszüge aus den politischen Reden von Präsident Obama)
Chinesischer Nachrichtenkorpus Chinesische Nachrichten (Schlagzeilen und Kurzberichte, die mithilfe von Crawlern von großen Nachrichten-Websites gecrawlt wurden.)
PTT-Klatschbrett-Tweets PTT-Twittes (Verwenden Sie einen Crawler, um den Inhalt des Klatschklassifizierungsabschnitts in der sozialen Software PTT zu crawlen. Die Originaldaten sind PTT-Klatschbrett-Tweets.txt, die einige Symbole und Platzrauschen enthalten. Filtern Sie das Rauschen (verwenden Sie Statistiken). Nachdem die Methode proportional durch feste Symbole ersetzt wurde, um die Komplexität der Daten zu verringern, werden der Frage- und Antwortkorpus und das Wörterbuch durch verschiedene Methoden wie einzelne Wörter oder Phrasen (Jieba-Absätze) erstellt.
Das Urheberrecht des öffentlichen Korpus liegt beim ursprünglichen Autor, und niemand darf ohne seine/ihre Erlaubnis in gewinnbringende Aktivitäten investieren. Vielen Dank für Ihre Mitarbeit. Investieren Sie im Namen einer Person in gewinnbringende Aktivitäten.
Schlagworte: Corpus
Chatbot