Conjuntos de datos para entrenar el sistema Chatbot
Este proyecto recopila algunos materiales de diálogo que se encuentran en Internet para entrenar robots de chat en chino (inglés).
Algunos de los conjuntos de datos recopilados son los siguientes, haga clic en el enlace para ingresar la dirección original
dgk_shooter_min.conv.zip
El corpus de diálogos de películas chinas es relativamente ruidoso y muchos diálogos no tienen buenas relaciones entre preguntas y respuestas.
El corpus SMS de NUS
Contiene un corpus de mensajes cortos en chino e inglés, que se dice que es el corpus público de mensajes cortos más grande del mundo.
ChatterBot corpus de chat básico chino
El motor de chat ChatterBot proporciona un corpus de chat chino básico. La cantidad es pequeña, pero la calidad es relativamente alta.
Conjuntos de datos para el procesamiento del lenguaje natural
Este es un conjunto de datos relacionados con el procesamiento del lenguaje natural recopilados por otros. Incluye principalmente tres partes: respuesta a preguntas, sistemas de diálogo y sistemas de diálogo orientados a objetivos, todos los cuales son textos en inglés. Puede utilizar la traducción automática al chino para utilizarla en conversaciones en chino.
Xiaohuangji Se dice que este es el corpus de Xiaohuangji50w_fenciA.conv.zip (segmentado) y xiaohuangji50w_nofenci.conv.zip (no segmentado)
El corpus de preguntas y respuestas en chino de Egret Times se compila a partir de más de 10.000 preguntas en la sección de preguntas y respuestas del foro oficial de Egret Times, y se seleccionan los registros marcados con la "mejor respuesta". Revise manualmente los datos sin procesar y dé a cada pregunta una respuesta aceptable. Actualmente, el corpus contiene sólo 2907 preguntas y respuestas. (respaldo)
Repositorio de corpus de chat
colección de corpus de chat de varias fuentes abiertas
Incluye: subtítulos abiertos, subtítulos de películas en inglés, letras en chino, tweets en inglés
El corpus de control de calidad de la industria de seguros es un conjunto de datos generado al traducir el control de calidad de seguros. train_data contiene 12.889 preguntas, 141.779 datos, ejemplos positivos: ejemplos negativos = 1:10; test_data contiene 2.000 preguntas, 22.000 datos, ejemplos positivos: ejemplos negativos = 1:10; valid_data contiene 2.000 preguntas, 22.000 datos, ejemplo positivo: ejemplo negativo = 1:10
Esta parte del corpus ha circulado en Internet, pero debido a nuestra capacidad limitada o al autor original no la ha hecho pública, aún no se ha obtenido. Recién listado para futuras búsquedas.
Todo el corpus original pertenece al autor original.
él yunchao
Weibo: @Yunchao_He