هل سبق لك أن شاهدت أو استخدمت الرد الذكي من Google؟ إنها خدمة توفر اقتراحات الرد التلقائي لرسائل المستخدم. انظر أدناه.
هذا تطبيق مفيد لبرنامج chatbot القائم على الاسترجاع. فكر في الأمر. كم مرة نرسل رسالة نصية مثل thx أو مرحبًا أو أراك لاحقًا ؟ في هذا المشروع، قمنا ببناء نظام بسيط لاقتراح الرد على الرسائل.
حديقة كيوبيونج
مراجعة الكود بواسطة Yj Choe
نحن بحاجة إلى تعيين قائمة الاقتراحات للعرض. وبطبيعة الحال، يعتبر التردد أولا. ولكن ماذا عن تلك العبارات المتشابهة في المعنى؟ على سبيل المثال، هل يجب أن أشكرك كثيرًا وأن تتم معاملتك بشكل مستقل؟ نحن لا نعتقد ذلك. نريد تجميعهم وحفظ فتحاتنا. كيف؟ نحن نستفيد من الجسم الموازي. كلاهما شكرًا جزيلاً لك ومن المرجح أن تتم ترجمتهما إلى نفس النص. وبناء على هذا الافتراض، قمنا ببناء مجموعات المرادفات الإنجليزية التي تشترك في نفس الترجمة.
لقد قمنا بضبط نموذج بيرت المدرب مسبقًا لتصنيف التسلسل. فيه، يقوم رمز البداية الخاص [CLS] بتخزين المعلومات الكاملة للجملة. يتم إرفاق طبقات إضافية لعرض المعلومات المكثفة على وحدات التصنيف (هنا 100).
نحن نستخدم مجموعة OpenSubtitles 2018 المتوازية الإسبانية والإنجليزية لإنشاء مجموعات المرادفات. OpenSubtitles عبارة عن مجموعة كبيرة من ترجمات الأفلام المترجمة. تتكون بيانات en-es من أكثر من 61 مليون سطر محاذٍ.
من الناحية المثالية، هناك حاجة إلى مجموعة حوارات كبيرة (جدًا) للتدريب، وهو ما فشلنا في العثور عليه. نحن نستخدم مجموعة حوارات فيلم كورنيل بدلاً من ذلك. وهي تتألف من 83.097 حوارًا أو 304.713 سطرًا.
بيثون>=3.6
تقدم>=4.30.0
الشعلة>=1.0
pytorch_pretrained_bert>=0.6.1
nltk>=3.4
الخطوة 0. تنزيل OpenSubtitles 2018 البيانات الموازية الإسبانية-الإنجليزية.
bash download.sh
الخطوة 1. قم ببناء مجموعات المرادفات من المجموعة.
python construct_sg.py
الخطوة 2. قم بإنشاء قواميس phr2sg_id وsg_id2phr.
python make_phr2sg_id.py
الخطوة 3. تحويل نص إنجليزي أحادي اللغة إلى معرفات.
python encode.py
الخطوة 4. إنشاء بيانات التدريب وحفظها كمخلل.
python prepro.py
الخطوة 5. القطار.
python train.py
قم بتنزيل النموذج الذي تم تدريبه مسبقًا واستخراجه وقم بتشغيل الأمر التالي.
python test.py --ckpt log/9500_ACC0.1.pt
فقدان التدريب يتناقص ببطء ولكن بثبات.
تتراوح الدقة @ 5 في بيانات التقييم من 10 إلى 20 بالمائة.
للتطبيق الحقيقي، هناك حاجة إلى مجموعة أكبر بكثير.
لست متأكدًا من مدى تشابه نصوص الأفلام مع مربعات حوار الرسائل.
من الضروري وجود استراتيجية أفضل لبناء مجموعات مرادفة.
يعد برنامج الدردشة الآلي القائم على الاسترجاع تطبيقًا واقعيًا لأنه أكثر أمانًا وأسهل من التطبيق القائم على الأجيال.