ดาวน์โหลด Chatbot Training Corpus - ดาวน์โหลดซอร์สโค้ด Chatbot Training Corpus

Chatbot Training Corpus

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ชุดข้อมูลโต้ตอบสำหรับการฝึกอบรม Chatbot

ในกระบวนการวิจัยของแชทบอท นอกจากการมีโมเดลที่ยอดเยี่ยมแล้ว ยังจำเป็นต้องมีสื่อการฝึกอบรมจำนวนมากเพื่อเสริมประสิทธิภาพของบอท (ในกระบวนการดำเนินการวิจัย Chatbot นอกจากจะมีโมเดลที่สวยงามแล้ว เรายังต้องมีคลังข้อมูลการฝึกอบรมจำนวนมากเพื่อเสริมความแข็งแกร่งให้แชทบอทของเรา ยิ่งคลังข้อมูลสะอาดเท่าไรก็ยิ่งสามารถฝึก Chatbot ให้ใกล้เคียงกับภาษาธรรมชาติของมนุษย์มากขึ้นเท่านั้น)

บทสรุปของ Corpora แสดงไว้ดังนี้ ( Corpora ส่วนใหญ่ที่เผยแพร่บนอินเทอร์เน็ตในปัจจุบันมีเสียงดังและมีจำนวนจำกัด นี่คือบทสรุปของ Corpora ที่เป็นไปได้บางส่วนและ Corpora บางส่วนที่ได้รับโดยใช้เครื่องมือรวบรวมข้อมูล รวมถึง :)

คลังสาธารณะขั้นพื้นฐาน (คลังสาธารณะขั้นพื้นฐาน)

dgk_shooter_min.conv คลังบทสนทนาภาพยนตร์ (คลังบทสนทนาภาพยนตร์จีน มีเสียงดัง เนื่องจากบทสนทนาไม่ได้แยกแยะผู้พูด จึงเป็นเรื่องยากที่จะสอดคล้องกับความสัมพันธ์ของคำถามบทสนทนาและคำตอบ )
- dgk_shooter_min.conv พร้อมการประมวลผลล่วงหน้า (สำหรับการประมวลผลคลังข้อมูลหุ่นยนต์แชท): data_preprocessing
ChatBot คลังแชทหลายภาษา คลังบทสนทนาหลายภาษาที่เสนอโดย ChatterBot (การแชทภาษาพื้นฐานที่จัดทำโดยโปรแกรมแชท ChatterBot ครอบคลุมหลากหลายภาษา แต่ปริมาณไม่มาก แต่คุณภาพสูงและเหมาะสำหรับการทดสอบแบบจำลอง )
ชุดข้อมูลสำหรับการประมวลผลภาษาธรรมชาติ บทสรุปเล็กน้อยเกี่ยวกับคลังข้อมูลสำหรับการวิจัยกระดาษ (นี่คือคอลเลกชันที่มนุษย์สร้างขึ้นของเอกสารวิจัยการประมวลผลภาษาธรรมชาติและชุดข้อมูลที่เกี่ยวข้อง พื้นที่ครอบคลุมหลัก ได้แก่: การตอบคำถาม ระบบการสนทนา และ การสนทนาเชิงเป้าหมาย ระบบ ฯลฯ ข้อความประกอบด้วยภาษาอังกฤษและสามารถใช้สำหรับการแปลด้วยเครื่องและแบบจำลองการสนทนา)
คลังบทสนทนา ที่มีชื่อเสียง “xiaohuangji ” เผยแพร่ทางออนไลน์ (ไม่แบ่งส่วน) ทั้งสองส่วนคั่นด้วย "/" และไม่มีการแบ่งความหมาย คลังข้อมูลมีอีโมติคอนมากกว่า และจำนวนคำโดยรวมในบทสนทนาน้อยกว่าและมีเสียงรบกวนมากกว่า)
ชุดข้อมูลคู่ QA ของจีน (ประกอบด้วยคำถามและการตอบกลับจากส่วนถามตอบของฟอรัมอย่างเป็นทางการของ Egret Times) การตอบกลับที่เลือกบันทึกที่มีเครื่องหมาย "คำตอบที่ดีที่สุด" เป็นเป้าหมาย ตรวจสอบข้อมูลด้วยตนเองและให้คำตอบที่ยอมรับได้แก่แต่ละคำถาม มีไม่มาก ส่วนใหญ่อยู่ในโหมดคำถามและคำตอบ)
Cornell_Movie-Dialogs_Corpus คลังข้อมูลบทสนทนาภาพยนตร์ของ Cornell (การรวบรวมข้อมูลบทสนทนาภาพยนตร์และโทรทัศน์ของมหาวิทยาลัย Cornell คลังข้อมูลประกอบด้วยข้อมูลชื่อคู่สนทนา คลังข้อมูลเป็นภาษาอังกฤษ โดยส่วนใหญ่เป็นบทสนทนาแบบหลายเลี้ยว)
Chinese Quatrains Corpus คลังข้อมูล quatrain ของจีนที่มีความยาวห้า (古文五语quatrains)
สุนทรพจน์ทางการเมืองของ Obama Corpus สุนทรพจน์ทางการเมืองของ Obama Corpus (ข้อความที่ตัดตอนมาจากสุนทรพจน์ทางการเมืองของประธานาธิบดี Obama)

จากคลังข้อมูลการรวบรวมข้อมูลส่วนบุคคลของ Crawler (การจัดเตรียมเบื้องต้น)

คลังข่าวภาษาจีน ข่าวจีน (หัวข้อข่าวและบทสรุปที่รวบรวมข้อมูลจากเว็บไซต์ข่าวหลัก ๆ โดยใช้โปรแกรมรวบรวมข้อมูล)
ทวีตบอร์ดซุบซิบของ PTT ทวีตของ PTT (ใช้โปรแกรมรวบรวมข้อมูลเพื่อรวบรวมข้อมูลเนื้อหาของส่วนการจัดประเภทซุบซิบบนซอฟต์แวร์โซเชียล PTT ข้อมูลต้นฉบับคือทวีตบอร์ดซุบซิบของ PTT tweets.txt ซึ่งประกอบด้วยสัญลักษณ์บางส่วนและเสียงรบกวนในพื้นที่ กรองเสียงรบกวน (ใช้สถิติ หลังจากแทนที่วิธีการด้วยสัญลักษณ์คงที่ตามสัดส่วนเพื่อลดความซับซ้อนของข้อมูล) คำถามและคำตอบคลังข้อมูลและพจนานุกรมจะถูกสร้างผ่านวิธีการต่างๆ เช่น คำหรือวลีเดี่ยวๆ (ย่อหน้า jieba)

ใบอนุญาต:

ลิขสิทธิ์ของคลังข้อมูลสาธารณะเป็นของผู้เขียนต้นฉบับ และไม่มีใครได้รับอนุญาตให้ลงทุนในกิจกรรมที่ทำกำไรโดยไม่ได้รับอนุญาตจากเขา/เธอ ขอบคุณสำหรับความร่วมมือของคุณ ลงทุนในกิจกรรมการทำกำไรในนามของบุคคล)