الترجمة الآلية العصبية (NMT) على زوج اللغة النيبالية-الإنجليزية. يمكنك تجربتها هنا.
يمكن العثور على البيانات الموازية التي أعددناها هنا.
يحتوي دليل data_cleaning
على البرامج النصية التي تنفذ طرق التنظيف التي تمت مناقشتها في التقرير.
يحتوي دليل translator
على واجهة عمل للمترجم.
قرب نهاية عام 2019، تم تنفيذ بعض الأعمال الإضافية في إطار المشروع، الموضحة هنا. نقاط التفتيش النموذجية المذكورة في الورقة موجودة هنا. تتكون بيانات التدريب من جزأين: أ) بيانات موازية حقيقية، ب) بيانات موازية تركيبية
اعتبارًا من فبراير 2021، هناك بعض مشكلات التوافق بين ملفات النماذج والإصدارات الأحدث من الحزم. لإصلاح هذه المشكلة، استخدم الإصدارات التالية من الحزم: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
.
ابحث عن النتائج الأحدث في الورقة المرتبطة أعلاه.
إن درجات BLEU البالغة 7.6 و4.3 (للطرق الخاضعة للإشراف) التي ذكرها جوزمان وزملاؤه في ورقتهم البحثية هي في مجموعتهم devtest
. هناك في الواقع مجموعتان أخريان تم إصدارهما: مجموعة التحقق التي تسمى مجموعة dev
ومجموعة test
التي تم إصدارها مؤخرًا (أكتوبر 2019). في التقرير المرتبط أعلاه، نقوم بالإبلاغ فقط عن النتائج الموجودة في مجموعة dev
. نحن نعيد إنتاج نموذجهم باستخدام تطبيقهم لتسجيله. نقوم هنا بالإبلاغ عن النتائج في كل من مجموعتي dev
و devtest
.
dev
نماذج | حجم الجسم | شمال شرق إن | EN-NE |
---|---|---|---|
جوزمان وآخرون. (2019) | 564 ك | 5.24 | 2.98 |
هذا العمل | 150 ألف | 12.26 | 6.0 |
devtest
نماذج | شمال شرق إن | EN-NE |
---|---|---|
جوزمان وآخرون. (2019) | 7.6 | 4.3 |
هذا العمل | 14.51 | 6.58 |
النتائج على devtest
مأخوذة من النماذج التي تستخدم أحجام مفردات تبلغ 2500.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
يتم استخدام Fairseq للتدريب، ويتم استخدام الجملة لتعلم BPE على متن المجموعة، وsacremoses لمعالجة النص الإنجليزي، وsacrebleu لتسجيل النماذج، وقارورة للواجهة. للتعامل مع النص النيبالي، نستخدم مكتبة البرمجة اللغوية العصبية الهندية.
يمكن تثبيت جميع المكتبات باستخدام pip
.
لتتمكن من تشغيل واجهة المترجم، يجب استنساخ مكتبة NLP الهندية إلى translator/app/modules/
.
هناك مكتبات أخرى مثل python-docx
و lxml
تستخدمها نصوص التنظيف.
بعد تدريب نموذج باستخدام تطبيق fairseq لـ Transformer، انسخ ملف نقطة التحقق إلى translator/app/models/
وأعد تسميته en-ne.pt
أو ne-en.pt
بناءً على اتجاه ترجمة ملف نقطة التحقق. تتوفر هنا ملفات نقاط التفتيش التي تحقق النتائج في التقرير. انسخ ملفات .pt
إلى translator/app/models
.
بعد وضع المتطلبات والنماذج، قم بتشغيل python app/app.py
من دليل translator
.
يمكن الحصول على تفاصيل التدريب نفسه من موقع fairseq repo أو الوثائق. يعد FLORES github مفيدًا أيضًا.
يكتب | جملة |
---|---|
مصدر | شولا جودامارولي، هذا المجال يصنع العديد من الأشياء من خلال بناء مساكن جديدة ثالي . |
مرجع | وبدأت المستودعات الكبيرة في تخزين الأحذية في المستودعات، التي صنعها العديد من المصنعين الصغار في المنطقة. |
نظام | بدأت المستودعات الكبيرة بتخزين الأحذية التي يصنعها صغار المنتجين في هذه المنطقة. |
يكتب | جملة |
---|---|
مصدر | العديد من الوظائف المتنوعة للكتابة التجارية، المشروعات التجارية والمنزلية الكتابة. |
مرجع | ويكتب الكتاب الفنيون أيضًا إجراءات مختلفة للاستخدام التجاري أو المهني أو المنزلي. |
نظام | يكتب المؤلفون الفنيون أيضًا عن الإجراءات المختلفة للاستخدام التجاري أو المهني أو المنزلي. |
يكتب | جملة |
---|---|
مصدر | إن لغة أوباما متطورة، وبوتين يتحدث بشكل مباشر ويفضل استخدام علامات الترقيم والإحصائيات، ولكن كلاهما يتمتعان بنفس القدرة على كسب قلوب الجمهور. |
مرجع | لقد استسلم أوباما لفترة وجيزة، وبوتين يشادو توكا وتاكا في طريقهما إلى جيرير بولن روتشاوهالان، تم تقليص حجمها بمقدار 100 مرة. |
نظام | بعد أن وافق أوباما على ذلك، حصل بوتين على خطة شراء ورحلة ثالثة في النهار، أصبح الثنائي شروتاكو موتو بعيدًا عن الأرض. |
يكتب | جملة |
---|---|
مصدر | يتم تحضير Litti Chokha عن طريق حشو دقيق الحنطة السوداء الممزوج بالتوابل المختلفة في العجين وتحميصه على النار، ويقدم مع معجون التوابل. |
مرجع | ليتي تشوكا - ليتي يونيو من بين الأشياء و المواد هالر أجوما سيكر بانيان، اختارت كل شيء بوشكين ج. |
نظام | لوتي تشوتشوكا يختلف عن المسالة المصيرية للآباء والأمهات في يسلاي تاكسن ومسلا تاسني لخدمة جيرينش د. |
إذا كنت تستخدم أي جزء من هذا المشروع في عملك، يرجى الاستشهاد بهذه الورقة.
لاستكمال الفصل السادس في برنامج علوم الكمبيوتر في جامعة كاتماندو. يوليو 2019.