ชุดข้อมูลสำหรับการฝึกอบรมระบบ Chatbot
โปรเจ็กต์นี้รวบรวมเนื้อหาบทสนทนาบางส่วนที่พบในอินเทอร์เน็ตเพื่อฝึกหุ่นยนต์แชทภาษาจีน (อังกฤษ)
ชุดข้อมูลบางส่วนที่รวบรวมมีดังนี้ คลิกที่ลิงค์ เพื่อป้อนที่อยู่เดิม
dgk_shooter_min.conv.zip
คลังบทสนทนาภาพยนตร์จีนค่อนข้างมีเสียงดัง และบทสนทนาหลายเรื่องไม่มีความสัมพันธ์ระหว่างคำถามและคำตอบที่ดี
NUS SMS คอร์ปัส
ประกอบด้วยคลังข้อความสั้นภาษาจีนและอังกฤษ ซึ่งกล่าวกันว่าเป็นคลังข้อความสั้นสาธารณะที่ใหญ่ที่สุดในโลก
ChatterBot คลังข้อมูลการสนทนาภาษาจีนขั้นพื้นฐาน
โปรแกรมแชท ChatterBot มีคลังข้อมูลการแชทภาษาจีนขั้นพื้นฐานจำนวนน้อยแต่คุณภาพค่อนข้างสูง
ชุดข้อมูลสำหรับการประมวลผลภาษาธรรมชาติ
นี่คือชุดข้อมูลที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติที่รวบรวมโดยผู้อื่น โดยส่วนใหญ่ประกอบด้วยสามส่วน: การตอบคำถาม ระบบการสนทนา และระบบการสนทนาเชิงเป้าหมาย ซึ่งทั้งหมดเป็นข้อความภาษาอังกฤษ สามารถใช้เครื่องแปลภาษาเป็นภาษาจีนเพื่อใช้ในการสนทนาภาษาจีนได้
Xiaohuangji ว่ากันว่านี่คือคลังข้อมูลของ Xiaohuangji50w_fenciA.conv.zip (แบ่งส่วน) และ xiaohuangji50w_nofenci.conv.zip (ไม่แบ่งส่วน)
คลังคำถามและคำตอบภาษาจีนของ Egret Times รวบรวมจากคำถามกว่า 10,000 ข้อในส่วนถามตอบของฟอรัมอย่างเป็นทางการของ Egret Times และเลือกบันทึกที่มีเครื่องหมาย "คำตอบที่ดีที่สุด" ไว้ ตรวจสอบข้อมูลดิบด้วยตนเองและให้คำตอบที่ยอมรับได้ในแต่ละคำถาม ปัจจุบันคลังข้อมูลมีคำถามและคำตอบเพียง 2,907 ข้อ (สำรอง)
พื้นที่เก็บข้อมูลแชทคอร์ปัส
คอลเลกชันคลังการสนทนาจากโอเพ่นซอร์สต่างๆ
ประกอบด้วย: คำบรรยายเปิด, คำบรรยายภาพยนตร์ภาษาอังกฤษ, เนื้อเพลงภาษาจีน, ทวีตภาษาอังกฤษ
คลังข้อมูล QA ของอุตสาหกรรมประกันภัยคือชุดข้อมูลที่สร้างขึ้นโดยการแปล InsuranceQA train_data มีคำถาม 12,889 ข้อ ข้อมูล 141,779 ข้อ ตัวอย่างเชิงบวก: ตัวอย่างเชิงลบ = 1:10; test_data มีคำถาม 2,000 ข้อ ข้อมูล 22,000 ข้อ ตัวอย่างเชิงบวก: ตัวอย่างเชิงลบ = 1:10; valid_data มีคำถาม 2,000 ข้อ ข้อมูล 22,000 ข้อ ตัวอย่างเชิงบวก: ตัวอย่างเชิงลบ = 1:10
เนื้อหาส่วนนี้ได้รับการเผยแพร่บนอินเทอร์เน็ต แต่เนื่องจากความสามารถที่จำกัดของเราหรือผู้เขียนต้นฉบับไม่ได้เปิดเผยต่อสาธารณะ จึงยังไม่ได้รับ เพิ่งระบุไว้สำหรับการค้นหาในอนาคต
คลังข้อมูลต้นฉบับทั้งหมดเป็นของผู้เขียนต้นฉบับ
เหอ หยุนเชา
weibo: @Yunchao_He