في عملية البحث الخاصة بروبوت الدردشة، باستثناء وجود نموذج رائع، هناك حاجة أيضًا إلى كمية كبيرة من المواد التدريبية لتعزيز فعالية الروبوت (في عملية إجراء بحث Chatbot، بالإضافة إلى وجود نموذج جميل، نحتاج أيضًا إلى قدر كبير من مجموعة التدريب لتقوية chatbot الخاص بنا. كلما كانت المجموعة أكثر نظافة، كلما كان من الممكن تدريب Chatbot على استجابات اللغة الطبيعية البشرية.)
dgk_shooter_min.conv مجموعة حوار الفيلم (مجموعة حوار الفيلم الصيني، صاخبة، نظرًا لأن الحوار لا يميز المتحدث، فمن الصعب التوافق مع علاقة سؤال وجواب الحوار.)
مجموعة الدردشة متعددة اللغات ChatBot مجموعة الحوار متعددة اللغات المقترحة من ChatterBot (تغطي الدردشة اللغوية الأساسية التي يوفرها محرك الدردشة ChatterBot مجموعة واسعة من اللغات، لكن الكمية ليست كبيرة، ولكن الجودة عالية ومناسبة لاختبار النماذج. )
مجموعات البيانات لمعالجة اللغات الطبيعية ملخص بسيط لمجموعة الأبحاث الورقية (هذه مجموعة من الأوراق البحثية الخاصة بمعالجة اللغات الطبيعية ومجموعات البيانات المقابلة لها. تشمل مجالات التغطية الرئيسية: الإجابة على الأسئلة وأنظمة الحوار والحوار الموجه نحو الأهداف النظام ، وما إلى ذلك. يتكون النص من اللغة الإنجليزية ويمكن استخدامه في الترجمة الآلية ونماذج المحادثة).
مجموعة حوارية شهيرة بعنوان "xiaohuangji " منشورة على الإنترنت (غير مجزأ) يتم الفصل بين الجزأين بواسطة "/" ، ولا يوجد تقسيم دلالي، ويحتوي النص على المزيد من الرموز، والعدد الإجمالي للكلمات في الحوار أقل وهناك المزيد من الضوضاء.)
مجموعة بيانات أزواج ضمان الجودة الصينية (تتكون من أسئلة وإجابات من قسم الأسئلة والأجوبة في المنتدى الرسمي لـ Egret Times). تم وضع علامة على "أفضل الإجابات" كهدف، وقم بمراجعة البيانات يدويًا وإعطاء كل سؤال إجابات مقبولة. ليس كثيرًا، معظمهم في وضع السؤال والجواب)
Cornell_Movie-Dialogs_Corpus مجموعة حوارات أفلام كورنيل (مجموعة بيانات الحوار السينمائي والتلفزيوني بجامعة كورنيل، تحتوي المجموعة على معلومات عن اسم المحاور، وتكون المجموعة باللغة الإنجليزية، وبشكل أساسي حوارات متعددة الأدوار.)
مجموعة الرباعيات الصينية مجموعة الرباعيات الصينية بطول خمسة (古文五语quatrains)
مجموعة خطابات أوباما السياسية مجموعة خطابات أوباما السياسية (مقتطفات من خطابات الرئيس أوباما السياسية)
مجموعة الأخبار الصينية الأخبار الصينية (عناوين الأخبار والملخصات التي يتم الزحف إليها من مواقع الأخبار الرئيسية باستخدام برامج الزحف.)
تغريدات لوحة القيل والقال PTT PTT twittes (استخدم الزاحف للزحف إلى محتوى قسم تصنيف القيل والقال في البرنامج الاجتماعي PTT. البيانات الأصلية هي PTT gossip board tweets.txt، والذي يتضمن بعض الرموز والضوضاء الفضائية. قم بتصفية الضوضاء (استخدم الإحصائيات بعد استبدال الطريقة برموز ثابتة بما يتناسب مع تقليل تعقيد البيانات)، يتم إنشاء مجموعة الأسئلة والأجوبة والقاموس من خلال طرق مختلفة مثل الكلمات أو العبارات المفردة (فقرات جيبا).
حقوق الطبع والنشر للمجموعة العامة مملوكة للمؤلف الأصلي، ولا يجوز لأي شخص الاستثمار في أنشطة مربحة دون إذنه، شكرًا لتعاونكم.
العلامات: Corpus
Chatbot