LEPOR: เมตริกการประเมินการแปลด้วยเครื่องอัตโนมัติพร้อมพารามิเตอร์ที่ปรับแต่งได้และปัจจัยเสริม
เพื่อประสิทธิภาพที่ดีขึ้น การตั้งค่าพารามิเตอร์ hLEPOR ในสถานการณ์ภาษา (หรือคู่ภาษา) ที่แตกต่างกันมีอยู่ที่ตารางที่ 1 (ค่าพารามิเตอร์ผ่านภาษา) ของเอกสาร WMT13 https://aclanthology.org/W13-2253.pdf พารามิเตอร์ถูกปรับด้วยตนเองโดยใช้ ชุดการตรวจสอบความถูกต้องของภาษาที่เกี่ยวข้อง สำหรับการปรับพารามิเตอร์อัตโนมัติ เรามี cushLEPOR พร้อมให้บริการแล้วที่ https://github.com/poethan/cushLEPOR
ตัวอย่างคำสั่ง cmd: Perl the-evalue.pl > Score-file.txt
ขอขอบคุณ Paolo Dr. (Awsome) Bolzoni ที่สร้างคะแนนระดับประโยคและคะแนนระดับระบบเป็นรูปแบบการส่งตัวชี้วัด WMT เช่น
http://www.statmt.org/wmt18/metrics-task.html
"ชื่อเมตริก, LANG-PAIR, ชุดทดสอบ, ระบบ, หมายเลขเซ็กเมนต์, คะแนนเซ็กเมนต์, วงดนตรี, พร้อมใช้งาน"
"ชื่อเมตริก, LANG-PAIR, ชุดทดสอบ, ระบบ, ระบบ, คะแนนระดับระบบ, ชุดประกอบ, พร้อมใช้งาน"
สำหรับไฟล์ทั้งหมดเกี่ยวกับ hLEPOR_baseline ใน WMT2019 เช่น รัน hLEPOR baseline อีกครั้งเพื่อการเปรียบเทียบหรือการปรับปรุง ฯลฯ คุณสามารถค้นหาไฟล์ทั้งหมดได้ในโฟลเดอร์ไดรฟ์นี้: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
เราเรียกสิ่งนี้ว่าพื้นฐานใน WMT2019 เนื่องจากเราไม่ได้ปรับแต่งพารามิเตอร์ในหน่วยเมตริกและไม่ได้ใช้คุณสมบัติทางภาษาที่เราใช้ใน WMT2013 เช่นกัน ให้ใช้ชุดพารามิเตอร์เริ่มต้นแทนและวัดเฉพาะคะแนนตามเอาต์พุตของระบบและไฟล์อ้างอิง โดยไม่ต้องใช้ทรัพยากรภายนอก
[WMT2013] ตัวชี้วัด LEPOR ทำคะแนนสหสัมพันธ์แบบเพียร์สันในระดับระบบสูงสุด (0.86) กับผู้ตัดสินที่เป็นมนุษย์ จากคู่ภาษาทั้งห้าคู่ตั้งแต่ภาษาอังกฤษไปจนถึงภาษาอื่นๆ [en-fr en-de en-es en-cs en-ru (ยังดีที่สุดด้วย คะแนนใน en-cs en-ru)] ใน WMT2013 https://www.aclweb.org/anthology/W13-2253 (ตารางที่ 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (ตารางที่ 3)
การอ้างอิง:
โคลลิ่ง:
@inproceedings{han2012lepor, title={LEPOR: เมตริกการประเมินผลที่มีประสิทธิภาพสำหรับการแปลด้วยเครื่องด้วยปัจจัยเสริม}, author={Han, Aaron L.-F. และ Wong, Derek F. และ Chao, Lidia S.}, booktitle={Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012)}, หน้า={441-450}, ปี={2012}, องค์กร={สมาคม สำหรับภาษาศาสตร์คอมพิวเตอร์} }
การประชุมสุดยอดมอนแทนา:
@inproceedings{han2013 language, title={แบบจำลองที่ไม่ขึ้นกับภาษาสำหรับการประเมินการแปลด้วยเครื่องด้วยปัจจัยเสริม}, ผู้เขียน={Han, Aaron L.-F. และ Wong, Derek F. และ Chao, Lidia S. และ He, Liangye และ Lu, Yi และ Xing, Junwen และ Zeng, Xiaodong}, booktitle={Machine Translation Summit XIV}, หน้า={215--222}, ปี= {2013}, Organization={International Association for Machine Translation} }
WMT:
@inproceedings{W13-2253, title = "คำอธิบายของระบบประเมินผลการแปลด้วยเครื่องที่ปรับแต่งได้ใน {WMT}งานเมตริก 13 รายการ", ผู้แต่ง = "Han, Aaron Li-Feng และ Wong, Derek F. และ Chao, Lidia S. และ Lu , Yi และ He, Liangye และ Wang, Yiming และ Zhou, Jiaji", ชื่อหนังสือ = "Proceedings of the Eighth Workshop on Statistical Machine Translation", เดือน = สิงหาคม ปี = "2013" ที่อยู่ = "โซเฟีย บัลแกเรีย" ผู้จัดพิมพ์ = "สมาคมภาษาศาสตร์คอมพิวเตอร์", url = "https://www.aclweb.org/anthology/W13-2253", หน้า = " 414--421", }
ปริญญาโท วิทยานิพนธ์:
@article{DBLP:journals/corr/Han17, author = {Lifeng Han}, title = {{LEPOR:} An Augmented Machine Translation Evalue Metric}, วารสาร = {CoRR}, เล่ม = {abs/1703.08748}, ปี = { 2017}, url = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, timestamp = {จันทร์, 13 สิงหาคม 2018 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {dblp บรรณานุกรมวิทยาการคอมพิวเตอร์, https://dblp.org} }
[LEPOR สำหรับการประเมิน MT และ NMT กระแสหลัก:] Marzouk, S. & Hansen-Schirra, S. 'การประเมินผลกระทบของภาษาควบคุมต่อการแปลด้วยเครื่องประสาทเมื่อเปรียบเทียบกับสถาปัตยกรรม MT อื่น ๆ' วารสารการแปลด้วยเครื่อง (2019) https://doi.org/10.1007/s10590-019-09233-w
[LEPOR ในการประเมินเมตาที่มีประสิทธิภาพสูงสุดจากข้อมูล WMT:] มีการวิเคราะห์ทางสถิติเชิงลึกเกี่ยวกับประสิทธิภาพของ hLEPOR และ nLEPOR ใน WMT13 ซึ่งแสดงให้เห็นว่าเป็นหนึ่งในตัวชี้วัดที่ดีที่สุด "ในการประเมินคู่ภาษาแต่ละภาษาสำหรับภาษาสเปนถึง -ภาษาอังกฤษและชุดรวมของคู่ภาษา 9 คู่" โปรดดูเอกสาร (การประเมินที่แม่นยำของเมตริกการแปลด้วยเครื่องระดับกลุ่ม) "https://www.aclweb.org/anthology/N15-1124" Graham และคณะ NAACL ปี 2015(https://github.com/ygraham/segment-mteval)
[LEPOR สำหรับการประเมินการค้นหา:] Liu และคณะ การประเมินเมตาของเมตริกการประเมินการค้นหาการสนทนา (2021) https://arxiv.org/pdf/2104.13453.pdf ธุรกรรม ACM บนระบบสารสนเทศ
[การประเมิน LEPOR สำหรับ NLG:] เหตุใดเราจึงต้องมีเกณฑ์การประเมินใหม่สำหรับ NLG โดย Jekaterina Novikova และคณะ 2017emnlp https://www.aclweb.org/anthology/D17-1238/