يتحدث لغة التاميل من قبل 80 مليون شخص في جميع أنحاء العالم. تؤدي الترجمة بين التاميل والإنجليزية إلى تأثير كبير من خلال المساعدة في فهم البرامج النصية للتاميل ، والتي ستكون عملية مملة ومكلفة وتستغرق وقتًا طويلاً. وبالتالي ، فإن تطوير نظام آلي لأداء التاميل إلى الترجمة الإنجليزية من شأنه أن يوفر الوقت والجهد البشري. ننشر علنًا عن مجموعة جديدة عالية الجودة للتدريب والتقييم والإبلاغ عن النتائج المعتادة مع بنية مختلفة تعتمد على مشفر تشفير لترجمة التاميل إلى اللغة الإنجليزية. لقد حاولنا أيضًا تحسينه من خلال تجربة تضمينات الكلمات المدربة وضبط فرط الممتدة. على الرغم من أن Google-Translator يوفر أيضًا التاميل للغة الإنجليزية والعكس بالعكس ، إلا أن البنى التي تم تنفيذها ، إلى جانب مجموعة البيانات الجديدة ، تفوقت تمامًا على المترجم Google بهامش من 7.5 Bleu. علاوة على ذلك ، فإن نموذجنا المقترح يحل من مشاكل المفردات و polysemy إلى حد أكبر.
لا تتردد في تنزيل ورقتنا باستخدام هذا الرابط
فيما يلي نماذجنا المدربة ، كما تمت مناقشته في ورقة البحث: الرابط
في تجربتنا ، استخدمنا 236،427 جمل English -English - Tamil ، كما نضيف المزيد من الجمل وإلى مجموعة البيانات. تنقسم مجموعة البيانات النهائية إلى ستة ملفات مترجمة لـ Tamil Parallelly من أجل سهولة التوزيع ، يرجى التحقق من مجلد مجموعة البيانات. إذا كنت ترغب في اختبار أحدث طرازات مدربة ولغات أخرى قمنا بتغطيتها ، فيرجى زيارة شبكة Translateme
إذا كنت لا تزال تواجه مشكلة ، فلا تتردد في الاتصال بالمؤلفين:
تم إجراء جميع المنهجيات التي تم تقييمها للترجمات التاميل إلى الإنجليزي باستخدام نفس مجموعة البيانات لكلا البنية. قارنا نتائجنا مع مترجم جوجل. يتفوق مترجم Transformer على مترجم التاميل المقترح ومترجم Google ، والذي يُعرف أنه أفضل نموذج تم الإبلاغ عنه للترجمة الآلية. أثناء تجربة مترجم التاميل ، أصبح من الواضح أن التضمينات التي تم تدريبها مسبقًا تؤدي أداءً أفضل من التدريب من Corpus ، وبالتالي لمترجم المحولات ، تم اختباره فقط مع التضمينات المدربة مسبقًا.
بصرف النظر عن تقييم نقاط Bleu ، تم إجراء التقييم البشري من قبل 3 علماء التاميل ، تم إعطاء 100 ترجمة تم اختيارها عشوائيًا من بعضها البعض ، باستخدام مخطط التصنيف التالي:
يتم حساب تصنيف المستخدم النهائي كمتوسط جميع التصنيفات التي قدمها العلماء لكل نموذج ، والذي يظهر في الجدول أدناه.
النموذج العمارة | بلو | تصنيف المستخدم |
---|---|---|
1. مترجم جوجل | 8.6 | 2.6 |
2. مترجم التاميل | 21.6 | 14.6 |
3. مترجم التاميل + التضمينات المسبق | 14.9 | 3.1 |
4. مترجم محول + تضمينات تدريب مسبقًا | 16.1 | 3.8 |
إذا كنت تستخدم مجموعة البيانات الخاصة بنا أو أي جزء آخر من الورقة ، فلا تنسى الاستشهاد بنا باستخدام
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}