Descarga Chatbot Training Corpus - Descarga del código fuente Chatbot Training Corpus

Chatbot Training Corpus

Código Fuente de IA

1.0.0

Descargar

Conjuntos de datos de diálogo para entrenar chatbot

En el proceso de investigación del chatbot, además de tener un modelo maravilloso, también se necesita una gran cantidad de materiales de capacitación para fortalecer la eficacia del bot. Cuanto más limpio sea nuestro corpus, más inteligente será el chatbot que podrá generar respuestas en lenguaje natural humano. (En el proceso de investigación de Chatbot, además de tener un modelo hermoso, también necesitamos una gran cantidad de corpus de capacitación para fortalecer nuestro chatbot. Cuanto más limpio sea el corpus, más cerca se podrá entrenar el Chatbot de las respuestas del lenguaje natural humano.)

A continuación se muestra un resumen de los corpus (la mayoría de los corpus publicados actualmente en Internet son corpus ruidosos y limitados. Aquí hay un resumen de algunos corpus factibles y algunos corpus obtenidos utilizando herramientas de rastreo, que incluyen:)

Corpus público básico (corpus público básico)

dgk_shooter_min.conv corpus de diálogos de películas (corpus de diálogos de películas chinas, ruidoso, debido a que el diálogo no distingue al hablante, es difícil corresponder a la relación de preguntas y respuestas del diálogo).
- dgk_shooter_min.conv con preprocesamiento (para procesamiento del corpus del robot de chat): data_preprocessing
Corpus de chat en varios idiomas ChatBot Corpus de diálogo en varios idiomas propuesto por ChatterBot (el chat de idiomas básico proporcionado por el motor de chat ChatterBot cubre una amplia gama de idiomas, pero la cantidad no es grande, pero la calidad es alta y adecuada para pruebas de modelos. )
Conjuntos de datos para el procesamiento del lenguaje natural Un pequeño resumen del corpus para investigaciones en papel (Esta es una colección generada por humanos de artículos de investigación sobre procesamiento del lenguaje natural y conjuntos de datos correspondientes. Las principales áreas de cobertura incluyen: respuesta a preguntas, sistemas de diálogo y diálogo orientado a objetivos Sistema , etc. El texto está compuesto en inglés y se puede utilizar para traducción automática y modelos conversacionales).
Un famoso corpus de diálogo "xiaohuangji " publicado en línea (Sin segmentar) Las dos partes están separadas por "/" y no hay división semántica. El corpus contiene más emoticones, y el número total de palabras en el diálogo es menor y hay más ruido).
Un conjunto de datos de pares de control de calidad chino (compuesto por preguntas y respuestas de la sección de preguntas y respuestas del foro oficial de Egret Times). Las respuestas seleccionaron registros marcados con "mejores respuestas" como objetivo. Revise manualmente los datos y dé a cada pregunta una respuesta aceptable. No muchos, principalmente en modo de preguntas y respuestas)
Cornell_Movie-Dialogs_Corpus Corpus de diálogos de películas de Cornell (recopilación de datos de diálogos de cine y televisión de la Universidad de Cornell, el corpus contiene información del nombre del interlocutor, el corpus está en inglés, principalmente diálogos de varios turnos).
Corpus de cuartetas chinas Corpus de cuartetas chinas de longitud cinco (古文五语quatrains)
Corpus de los discursos políticos de Obama Corpus de los discursos políticos de Obama (Extractos de los discursos políticos del presidente Obama)

Del corpus de rastreo personal de Crawler (disposición preliminar)

Corpus de noticias chinas Noticias chinas (titulares y resúmenes de noticias rastreados desde los principales sitios web de noticias mediante rastreadores).
PTT gossip board tweets PTT twittes (Utilice un rastreador para rastrear el contenido de la sección de clasificación de chismes en el software social PTT. Los datos originales son PTT gossip board tweets.txt, que incluye algunos símbolos y ruido espacial. Filtre el ruido (use estadísticas Después de reemplazar el método con símbolos fijos en proporción para reducir la complejidad de los datos), el corpus y el diccionario de preguntas y respuestas se establecen a través de diferentes métodos, como palabras o frases individuales (párrafos jieba).

Licencia:

Los derechos de autor del corpus público son propiedad del autor original y a nadie se le puede permitir invertir en actividades lucrativas sin su permiso, gracias por su cooperación. Invierta en actividades lucrativas en nombre de la persona.