لدينا الآن واجهة اختبارية، والتي يمكن استخدامها من خلال البحث في حساب WeChat العام OpenDialog
تم بناء OpenDialog على المحولات المستندة إلى PyTorch. يوفر سلسلة من نماذج حوار المجال المفتوح الصينية القائمة على المحولات (محادثات الدردشة)، ويجمع موارد البيانات الموجودة ويكمل بشكل مستمر مجموعات بيانات نظام المحادثة الصينية المقابلة، بهدف بناء منصة حوار دردشة صينية مفتوحة المصدر.
آخر التطورات:
2020.8.20، أكملت واجهة نموذج التدريب المسبق للمجال المفتوح التوليدي LCCC-GPT-Large، وقمت بتشغيل الكود التالي لبدء الخدمة المقابلة
./run_flask lccc < gpu_id >
2020.10.26، أكملت مجموعة من نماذج حوار استرجاع التشفير الثنائي (bert-bi-encoder، polyencoder، إلخ.)
...
الملفات والدلائل الأساسية لـ OpenDialog:
data
: مجموعة البيانات، ملف التكوين، قائمة الكلمات، ناقل الكلمات، البرنامج النصي لمعالجة مجموعة البياناتmodels
: نماذج الحوارmetrics
: مؤشرات التقييمmultiview
: نموذج إعادة الترتيب متعدد الزوايا، إعادة التصنيف للحصول على إجابات مرشحي الحوارckpt
: يخزن نموذج التدريبrest
: يخزن سجلات Tensorboard وملفات النتائج التي تم إنشاؤها أثناء مرحلة الاختبارutils
: يخزن وظائف الأداةdataloader.py
: البرنامج النصي لتحميل مجموعة البياناتmain.py
: ملف التشغيل الرئيسيheader.py
: الحزمة التي يجب استيرادهاeval.py
: استدعاء البرنامج النصي لتقييم مؤشرات التقييم في metrics
لاختبار نتائج الملف الذي تم إنشاؤه في rest
run.sh
: تشغيل البرنامج النصي الدفعيrun_flask.sh
: اتصل بالنموذج وابدأ الخدمة بيئة النظام الأساسية: Linux/Ubuntu-16.04+
، Python 3.6+
، GPU (default 1080 Ti)
تثبيت المكتبات المعتمدة على بايثون
pip install -r requirements.txt
قم بتثبيت ElasticSearch
يحتاج نظام الحوار القائم على الاسترجاع إلى استخدام elasticsearch
أولاً لإجراء الفحص التقريبي. في الوقت نفسه، من أجل تحقيق تجزئة الكلمات الصينية في مرحلة استرجاع الفحص الخشن، يجب تنزيل وتثبيت أداة تجزئة الكلمات الصينية.
قم بتثبيت mongodb
بعد بدء الخدمة، سيتم استخدام mongodb
لتخزين سجل الجلسة والبيانات الضرورية
data
، وقم بتخزين ملفات متجهات الكلمات chinese_w2v.txt
و english_w2v.bin
ضمن data
.data/README.md
للحصول على تفاصيل البيانات والبيانات المعالجة مسبقًا.<gpu_ids>
، مثل 0,1,2,3
dataset
متوافق مع الاسم الموجود في دليل data
.نموذج | كمد | يكتب | تفاصيل | يشير إلى | نموذج ما قبل القطار |
---|---|---|---|---|---|
bertretrieval | ./run.sh قطار <dataset> bertretrieval <gpu_ids> | استرجاع | نموذج الضبط الدقيق القائم على بيرت (الضبط الدقيق) | ورق | |
gpt2 | ./run.sh قطار <dataset> gpt2 <gpu_ids> | توليدي | نموذج الحوار التوليدي GPT2 | شفرة | |
gpt2gan | ./run.sh قطار <dataset> gpt2gan <gpu_ids> | توليدي | نموذج الحوار القائم على GAN، النموذج التوليدي هو GPT2، والنموذج التمييزي هو نموذج BERT ثنائي التصنيف. | ورق |
بدء خدمة القارورة
./run_flask.sh <model_name> <gpu_id>
واجهة المكالمة