Kumpulan Data untuk Pelatihan Sistem Chatbot
Proyek ini mengumpulkan beberapa materi dialog yang ditemukan di Internet untuk melatih robot obrolan berbahasa Mandarin (Inggris).
Beberapa kumpulan data yang dikumpulkan adalah sebagai berikut, klik link untuk memasukkan alamat asli
dgk_shooter_min.conv.zip
Korpus dialog film Tiongkok relatif berisik, dan banyak dialog tidak memiliki hubungan tanya jawab yang baik.
Korpus SMS NUS
Berisi korpus pesan singkat berbahasa Mandarin dan Inggris, yang dikatakan sebagai korpus pesan singkat publik terbesar di dunia.
Korpus obrolan dasar Cina ChatterBot
Mesin obrolan ChatterBot menyediakan beberapa kumpulan obrolan dasar berbahasa Mandarin. Jumlahnya kecil, tetapi kualitasnya relatif tinggi.
Kumpulan Data untuk Pemrosesan Bahasa Alami
Ini adalah kumpulan data terkait pemrosesan bahasa alami yang dikumpulkan oleh orang lain. Ini terutama mencakup tiga bagian: Menjawab Pertanyaan, Sistem Dialog, dan Sistem Dialog Berorientasi Tujuan, yang semuanya merupakan teks bahasa Inggris. Dapat menggunakan terjemahan mesin ke bahasa Mandarin untuk digunakan dalam percakapan bahasa Mandarin
Xiaohuangji Dikatakan bahwa ini adalah korpus dari Xiaohuangji50w_fenciA.conv.zip (tersegmentasi) dan xiaohuangji50w_nofenci.conv.zip (tidak tersegmentasi)
Korpus tanya jawab bahasa Mandarin di Egret Times dikumpulkan dari 10.000+ pertanyaan di bagian Tanya Jawab di forum resmi Egret Times, dan catatan yang ditandai dengan "jawaban terbaik" dipilih. Tinjau data mentah secara manual dan berikan setiap pertanyaan jawaban yang dapat diterima. Saat ini korpus hanya memuat 2907 soal dan jawaban. (cadangan)
Repositori korpus obrolan
kumpulan korpus obrolan dari berbagai sumber terbuka
Termasuk: subtitle terbuka, subtitle film bahasa Inggris, lirik bahasa Mandarin, tweet bahasa Inggris
Korpus QA industri asuransi adalah kumpulan data yang dihasilkan dengan menerjemahkan QA asuransi. train_data berisi 12.889 soal, 141.779 data, contoh positif: contoh negatif = 1:10; data_valid berisi 2.000 soal, 22.000 data, contoh positif: contoh negatif = 1:10; 1:10
Bagian korpus ini telah beredar di Internet, namun karena keterbatasan kemampuan kami atau penulis aslinya belum mempublikasikannya, maka belum dapat diperoleh. Baru saja terdaftar untuk pencarian di masa mendatang.
Semua korpus asli adalah milik penulis asli
Dia Yunchao
weibo: @Yunchao_He