مجموعات البيانات لتدريب نظام Chatbot
يجمع هذا المشروع بعض مواد الحوار الموجودة على الإنترنت لتدريب روبوتات الدردشة الصينية (الإنجليزية).
بعض مجموعات البيانات التي تم جمعها هي كما يلي، انقر على الرابط لإدخال العنوان الأصلي
dgk_shooter_min.conv.zip
تعد مجموعة حوارات الأفلام الصينية صاخبة نسبيًا، والعديد من الحوارات لا تتمتع بعلاقات جيدة بين الأسئلة والأجوبة.
مجموعة الرسائل القصيرة NUS
يحتوي على مجموعة رسائل قصيرة باللغتين الصينية والإنجليزية، والتي يُقال إنها أكبر مجموعة رسائل قصيرة عامة في العالم.
ChatterBot مجموعة الدردشة الأساسية الصينية
يوفر محرك الدردشة ChatterBot بعض مجموعات الدردشة الصينية الأساسية. الكمية صغيرة، لكن الجودة عالية نسبيًا.
مجموعات البيانات لمعالجة اللغات الطبيعية
هذه مجموعة بيانات متعلقة بمعالجة اللغة الطبيعية تم جمعها من قبل الآخرين، وهي تتضمن بشكل أساسي ثلاثة أجزاء: الإجابة على الأسئلة، وأنظمة الحوار، وأنظمة الحوار الموجه نحو الأهداف، وجميعها نصوص باللغة الإنجليزية. يمكن استخدام الترجمة الآلية إلى اللغة الصينية لاستخدامها في المحادثات الصينية
Xiaohuangji يقال أن هذه هي مجموعة Xiaohuangji50w_fenciA.conv.zip (مجزأة) وxiaohuangji50w_nofenci.conv.zip (غير مقسمة)
تم تجميع مجموعة الأسئلة والأجوبة الصينية في Egret Times من أكثر من 10000 سؤال في قسم الأسئلة والأجوبة في المنتدى الرسمي لـ Egret Times، ويتم اختيار السجلات المميزة بـ "أفضل إجابة". قم بمراجعة البيانات الأولية يدويًا وإعطاء كل سؤال إجابة مقبولة. حاليًا، تحتوي المجموعة على 2907 أسئلة وأجوبة فقط. (احتياطية)
مستودع مجموعة الدردشة
مجموعة الدردشة من مصادر مفتوحة مختلفة
يتضمن: ترجمة مفتوحة، ترجمة الأفلام الإنجليزية، كلمات الأغاني الصينية، التغريدات الإنجليزية
مجموعة ضمان الجودة في صناعة التأمين عبارة عن مجموعة بيانات تم إنشاؤها عن طريق ترجمة ضمان الجودة في مجال التأمين. يحتوي Train_data على 12,889 سؤالًا، و141,779 بيانات، أمثلة إيجابية: أمثلة سلبية = 1:10؛ يحتوي test_data على 2000 سؤال، و22000 بيانات، أمثلة إيجابية: أمثلة سلبية = 1:10؛ بيانات صالحة تحتوي على 2000 سؤال، 22000 بيانات، مثال إيجابي: مثال سلبي = 1:10
تم تداول هذا الجزء من المجموعة على الإنترنت، ولكن نظرًا لقدرتنا المحدودة أو أن المؤلف الأصلي لم يعلن عنه، لم يتم الحصول عليه بعد. المدرجة للتو للبحث في المستقبل.
جميع النصوص الأصلية تنتمي إلى المؤلف الأصلي
هو يونشاو
ويبو: @Yunchao_He