LEPOR: مقياس تقييم الترجمة الآلية مع معلمات قابلة للضبط وعوامل معززة
للحصول على أداء أفضل، يتوفر إعداد معلمة hLEPOR في مواقف لغة مختلفة (أو زوج لغوي) في الجدول 1 (قيم المعلمات عبر اللغة) لورقة WMT13 https://aclanthology.org/W13-2253.pdf تم ضبط المعلمات يدويًا باستخدام مجموعة التحقق من اللغة المقابلة. للضبط التلقائي للمعلمات، لدينا cushLEPOR متاح الآن على https://github.com/poethan/cushLEPOR
مثال لأمر cmd: Perl the-evaluation-code.pl > Score-file.txt
بفضل Paolo Dr. (Awsome) Bolzoni، فهو ينشئ النتيجة على مستوى الجملة والنتيجة على مستوى النظام كتنسيق إرسال مقاييس WMT. على سبيل المثال
http://www.statmt.org/wmt18/metrics-task.html
"اسم المقياس، زوج اللغة، مجموعة الاختبار، النظام، رقم القطعة، درجة القطعة، المجموعة، متوفرة"
"اسم المقياس، زوج اللغة، مجموعة الاختبار، النظام، النظام، درجة مستوى النظام، المجموعة، المتاحة"
بالنسبة لجميع الملفات المتعلقة بـ hLEPOR_baseline في WMT2019، على سبيل المثال، أعد تشغيل خط الأساس hLEPOR للمقارنة أو التحسين وما إلى ذلك. يمكنك العثور عليها جميعًا في مجلد محرك الأقراص هذا: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
نحن نسميها خط الأساس في WMT2019 لأننا لم نضبط المعلمات في المقياس ولم نستخدم الميزات اللغوية التي استخدمناها في WMT2013 أيضًا. بدلاً من ذلك، استخدم فقط مجموعة من المعلمات الافتراضية وقياس الدرجات فقط وفقًا لمخرجات النظام والملفات المرجعية، دون استخدام أي موارد خارجية.
[WMT2013] حققت مقاييس LEPOR أعلى درجة ارتباط بيرسون على مستوى النظام (0.86) مع الحكم البشري، على متوسط خمسة أزواج لغوية من الإنجليزية إلى أخرى [en-fr en-de en-es en-cs en-ru (الأفضل أيضًا النتيجة على en-cs en-ru)] في WMT2013. https://www.aclweb.org/anthology/W13-2253 (الجدول 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (الجدول 3)
الاقتباس:
كولينج:
@inproceedings{han2012lepor, title={LEPOR: مقياس تقييم قوي للترجمة الآلية مع العوامل المعززة}، المؤلف={Han, Aaron L.-F. and Wong, Derek F. and Chao, Lidia S.}, booktitle={Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012)}، الصفحات={441-450}، العام={2012}، المنظمة={Association للغويات الحاسوبية } }
قمة مسرح ماجنت:
@inproceedings{han2013language, title={نموذج مستقل عن اللغة لتقييم الترجمة الآلية مع العوامل المعززة}، المؤلف={Han, Aaron L.-F. and Wong, Derek F. and Chao, Lidia S. and He, Liangye and Lu, Yi and Xing, Junwen and Zeng, Xiaodong}، عنوان الكتاب={قمة الترجمة الآلية XIV}، الصفحات={215--222}، السنة= {2013}, المنظمة={الجمعية الدولية للترجمة الآلية} }
ومت:
@inproceedings{W13-2253، العنوان = "وصف لأنظمة تقييم الترجمة الآلية القابلة للضبط في {WMT} 13 مهمة قياس"، المؤلف = "Han, Aaron Li-Feng and Wong, Derek F. and Chao, Lidia S. and Lu ، يي وهو، ليانغي ووانغ، ييمينغ وتشو، جياجي"، عنوان الكتاب = "وقائع ورشة العمل الثامنة حول الترجمة الآلية الإحصائية"، الشهر = أغسطس، السنة = "2013"، العنوان = "صوفيا، بلغاريا"، الناشر = "جمعية اللغويات الحاسوبية"، url = "https://www.aclweb.org/anthology/W13-2253"، الصفحات = " 414--421"، }
ماجستير. أُطرُوحَة:
@article{DBLP:journals/corr/Han17، المؤلف = {Lifeng Han}، العنوان = {{LEPOR:} مقياس تقييم الترجمة الآلية المعززة}، المجلة = {CoRR}، المجلد = {abs/1703.08748}، السنة = { 2017}، عنوان URL = {http://arxiv.org/abs/1703.08748}، archivePrefix = {arXiv}، eprint = {1703.08748}، الطابع الزمني = {الاثنين، 13 أغسطس 2018 16:48:22 +0200}، biburl = {https://dblp.org/rec/bib/journals/corr/Han17}، bibsource = {dblp ببليوغرافيا علوم الكمبيوتر، https://dblp.org} }
[LEPOR لتقييم MT وNMT السائد:] Marzouk, S. & Hansen-Schirra, S. "تقييم تأثير اللغة الخاضعة للرقابة على الترجمة الآلية العصبية مقارنة ببنيات الترجمة الآلية الأخرى". مجلة الترجمة الآلية (2019). https://doi.org/10.1007/s10590-019-09233-w
[LEPOR في التقييم التلوي الأفضل أداءً من بيانات WMT:] هناك تحليل إحصائي عميق حول أداء hLEPOR وnLEPOR في WMT13، مما يوضح أنه تم أداؤه كواحد من أفضل المقاييس "في كل من تقييم زوج اللغة الفردي للغة الإسبانية-إلى - اللغة الإنجليزية والمجموعة المجمعة المكونة من 9 أزواج لغوية. "، راجع الورقة (التقييم الدقيق لمقاييس الترجمة الآلية على مستوى القطاع) "https://www.aclweb.org/anthology/N15-1124" جراهام وآخرون. 2015 NAACL (https://github.com/ygraham/segment-mteval)
[ليبور لتقييم البحث:] ليو وآخرون. التقييم التلوي لمقاييس تقييم بحث المحادثة، (2021) https://arxiv.org/pdf/2104.13453.pdf معاملات ACM على أنظمة المعلومات
[تقييم LEPOR لـ NLG:] لماذا نحتاج إلى مقاييس تقييم جديدة لـ NLG. بواسطة يكاترينا نوفيكوفا وآخرون 2017emnlp. https://www.aclweb.org/anthology/D17-1238/