الرد على الرسائل الذكية
هل سبق لك أن شاهدت أو استخدمت الرد الذكي من Google؟ إنها خدمة توفر اقتراحات الرد التلقائي لرسائل المستخدم. انظر أدناه.
هذا تطبيق مفيد لبرنامج chatbot القائم على الاسترجاع. فكر في الأمر. كم مرة نرسل رسالة نصية مثل thx أو مرحبًا أو أراك لاحقًا ؟ في هذا المشروع، قمنا ببناء نظام بسيط لاقتراح الرد على الرسائل.
حديقة كيوبيونج
مراجعة الكود بواسطة Yj Choe
مجموعة المرادفات
- نحن بحاجة إلى تعيين قائمة الاقتراحات للعرض. وبطبيعة الحال، يعتبر التردد أولا. ولكن ماذا عن تلك العبارات المتشابهة في المعنى؟ على سبيل المثال، هل يجب أن أشكرك كثيرًا وأن تتم معاملتك بشكل مستقل؟ نحن لا نعتقد ذلك. نريد تجميعهم وحفظ فتحاتنا. كيف؟ نحن نستفيد من الجسم الموازي. كلاهما شكرًا جزيلاً لك ومن المرجح أن تتم ترجمتهما إلى نفس النص. وبناء على هذا الافتراض، قمنا ببناء مجموعات المرادفات الإنجليزية التي تشترك في نفس الترجمة.
نموذج
لقد قمنا بضبط نموذج بيرت المدرب مسبقًا لتصنيف التسلسل. فيه، يقوم رمز البداية الخاص [CLS] بتخزين المعلومات الكاملة للجملة. يتم إرفاق طبقات إضافية لعرض المعلومات المكثفة على وحدات التصنيف (هنا 100).
بيانات
- نحن نستخدم مجموعة OpenSubtitles 2018 المتوازية الإسبانية والإنجليزية لإنشاء مجموعات المرادفات. OpenSubtitles عبارة عن مجموعة كبيرة من ترجمات الأفلام المترجمة. تتكون بيانات en-es من أكثر من 61 مليون سطر محاذي.
- من الناحية المثالية، هناك حاجة إلى مجموعة حوارات كبيرة (جدًا) للتدريب، وهو ما فشلنا في العثور عليه. نحن نستخدم مجموعة حوارات فيلم كورنيل بدلاً من ذلك. وهي تتألف من 83.097 حوارًا أو 304.713 سطرًا.
متطلبات
- بيثون>=3.6
- تقدم>=4.30.0
- الشعلة>=1.0
- pytorch_pretrained_bert>=0.6.1
- nltk>=3.4
تمرين
- الخطوة 0. تنزيل OpenSubtitles 2018 البيانات الموازية الإسبانية-الإنجليزية.
- الخطوة 1. قم ببناء مجموعات المرادفات من المجموعة.
- الخطوة 2. قم بإنشاء قواميس phr2sg_id وsg_id2phr.
- الخطوة 3. تحويل نص إنجليزي أحادي اللغة إلى معرفات.
- الخطوة 4. إنشاء بيانات التدريب وحفظها كمخلل.
اختبار (تجريبي)
- قم بتنزيل النموذج الذي تم تدريبه مسبقًا واستخراجه وقم بتشغيل الأمر التالي.
python test.py --ckpt log/9500_ACC0.1.pt
ملحوظات
- فقدان التدريب يتناقص ببطء ولكن بثبات.
- تتراوح الدقة @ 5 في بيانات التقييم من 10 إلى 20 بالمائة.
- للتطبيق الحقيقي، هناك حاجة إلى مجموعة أكبر بكثير.
- لست متأكدًا من مدى تشابه نصوص الأفلام مع مربعات حوار الرسائل.
- من الضروري وجود استراتيجية أفضل لبناء مجموعات مرادفة.
- يعد برنامج الدردشة الآلي القائم على الاسترجاع تطبيقًا واقعيًا لأنه أكثر أمانًا وأسهل من التطبيق القائم على الأجيال.