Dalam proses penelitian chatbot, selain memiliki model yang bagus, sejumlah besar materi pelatihan juga diperlukan untuk memperkuat kemanjuran bot. Semakin bersih korpus kita, semakin cerdas chatbot yang mampu menghasilkan balasan bahasa alami manusia . (Dalam proses melakukan penelitian Chatbot, selain memiliki model yang cantik, kita juga memerlukan sejumlah besar korpus pelatihan untuk memperkuat chatbot kita. Semakin bersih korpusnya, semakin dekat respons bahasa alami manusia yang dapat dilatihkan Chatbot.)
dgk_shooter_min.conv korpus dialog film (korpus dialog film China, berisik, karena dialog tidak membedakan pembicara, sulit untuk mencocokkan hubungan tanya jawab dialog. )
Korpus obrolan multi-bahasa ChatBot Korpus dialog multi-bahasa diusulkan oleh ChatterBot (Obrolan bahasa dasar yang disediakan oleh mesin obrolan ChatterBot mencakup berbagai bahasa, tetapi kuantitasnya tidak banyak, tetapi kualitasnya tinggi dan cocok untuk pengujian model. )
Kumpulan Data untuk Pemrosesan Bahasa Alami Sedikit ringkasan korpus untuk penelitian makalah (Ini adalah kumpulan makalah penelitian pemrosesan bahasa alami dan kumpulan data terkait yang dihasilkan manusia. Area cakupan utama meliputi: Menjawab Pertanyaan, Sistem Dialog , dan Dialog Berorientasi Tujuan Sistem , dll. Teksnya terdiri dari bahasa Inggris dan dapat digunakan untuk terjemahan mesin dan model percakapan).
Korpus dialog terkenal “xiaohuangji ” diterbitkan secara online (Tidak tersegmentasi) Kedua bagian dipisahkan oleh "/" , dan tidak ada pembagian semantik. Korpus berisi lebih banyak emotikon, dan jumlah kata keseluruhan dalam dialog lebih sedikit dan lebih banyak kebisingan.)
Kumpulan data pasangan QA Tiongkok (terdiri dari pertanyaan dan tanggapan dari bagian Tanya Jawab di forum resmi Egret Times). Catatan yang dipilih untuk tanggapan ditandai dengan "jawaban terbaik" sebagai target. Tinjau data secara manual dan berikan setiap pertanyaan Jawaban yang dapat diterima. Tidak banyak, kebanyakan dalam mode tanya jawab)
Cornell_Movie-Dialogs_Corpus Korpus dialog film Cornell (Pengumpulan data dialog film dan televisi Universitas Cornell, korpus berisi informasi nama lawan bicara, korpus dalam bahasa Inggris, terutama dialog multi-putaran.)
Korpus Kuatrain Tiongkok Korpus kuatrain Tiongkok dengan panjang lima (古文五语kuatrain)
Korpus Pidato Politik Obama Korpus pidato politik Obama (Kutipan dari pidato politik Presiden Obama)
Korpus berita Tiongkok berita Tiongkok (judul dan ringkasan berita dirayapi dari situs berita utama menggunakan perayap.)
Tweet papan gosip PTT Tweet PTT (Gunakan crawler untuk merayapi konten bagian klasifikasi gosip pada perangkat lunak sosial PTT. Data asli adalah tweets.txt papan gosip PTT, yang mencakup beberapa simbol dan kebisingan ruang. Filter kebisingan (gunakan statistik Setelah mengganti metode dengan simbol tetap secara proporsional untuk mengurangi kompleksitas data), korpus tanya jawab dan kamus dibentuk melalui metode yang berbeda seperti kata atau frasa tunggal (paragraf jieba).
Hak cipta korpus publik dimiliki oleh penulis asli, dan tidak seorang pun boleh berinvestasi dalam aktivitas yang menguntungkan tanpa izinnya, terima kasih atas kerja sama Anda. Berinvestasi dalam aktivitas yang menghasilkan keuntungan atas nama orang).
Tag: Corpus
Chatbot