LEPOR:具有可調參數和增強因子的自動機器翻譯評估指標
為了獲得更好的效能,不同語言(或語言對)情況下的hLEPOR 參數設定可參考WMT13 論文的表1(透過語言的參數值) https://aclanthology.org/W13-2253.pdf 參數手動調整使用對應語言的驗證集。為了自動調整參數,我們現在可以在 https://github.com/poethan/cushLEPOR 上使用 cushLEPOR
cmd指令範例:Perl the-evaluation-code.pl > Score-file.txt
感謝 Paolo Dr. (Awsome) Bolzoni,它以 WMT 指標提交格式產生句子級分數和系統級分數。例如
http://www.statmt.org/wmt18/metrics-task.html
“指標名稱、語言對、測試集、系統、段編號、段分數、整體、可用”
“指標名稱、語言對、測試集、系統、系統、系統級別分數、整體、可用”
對於 WMT2019 中有關 hLEPOR_baseline 的所有文件,例如重新運行 hLEPOR 基線進行比較或改進等,您可以在此驅動器資料夾中找到它們:(https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
我們在 WMT2019 中稱之為基線,因為我們沒有調整指標中的參數,也沒有使用我們在 WMT2013 中使用的語言特徵。相反,僅使用一組預設參數,僅根據系統輸出和參考文件測量分數,不使用外部資源。
[WMT2013] LEPOR 指標在從英語到其他語言 [en-fr en-de en-es en-cs en-ru(也是最好的WMT2013 中 en-cs en-ru)] 的得分。 https://www.aclweb.org/anthology/W13-2253(表 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf(表 3)
引用:
染色:
@inproceedings{han2012lepor,title={LEPOR:增強因子機器翻譯的穩健評估指標},作者={Han,Aaron L.-F.和Wong, Derek F. 和Chao, Lidia S.},書名={第24 屆國際計算語言學會議論文集(COLING 2012)},頁數={441-450},年份={2012},組織={協會計算語言學} }
MT高峰會:
@inproceedings{han2013language,title={具有強化因子的機器翻譯評估的語言無關模型},作者={Han,Aaron L.-F.以及 Wong、Derek F. 和 Chao、Lidia S. 和 He、Liangye 和 Lu、Yi 和 Xing、Junwen 和曾曉東},書名={機器翻譯峰會 XIV},頁數={215--222},年份= {2013}, 組織={國際機器翻譯協會} }
世界MT:
@inproceedings{W13-2253,標題 =“{WMT}13 Metrics Task 中可調機器翻譯評估系統的描述”,作者 =“Han、Aaron Li-Feng 和 Wong、Derek F. 和 Chao、Lidia S. 和 Lu ,易和何,良野和王,一鳴和周,嘉吉”,書名=“第八屆統計機器翻譯研討會論文集”,月份=8月,年份=“2013年”,地址=“保加利亞索菲亞”,出版商= “計算語言學協會”,url =“https://www.aclweb.org/anthology/W13-2253”,pages =“414--421”,}
碩士。論文:
@article{DBLP:journals/corr/Han17,作者 = {Lifefeng Han},標題 = {{LEPOR:} 增強機器翻譯評估指標},期刊 = {CoRR},卷 = {abs/1703.08748},年份 = { 2017 },url = {http://arxiv.org/abs/1703.08748},archivePrefix = {arXiv},eprint = {1703.08748},時間戳= {星期一,2018 年8 月13 日16:48:22 +0200 },biburl = {https://dblp.org/rec/bib/journals/corr/Han17},bibsource = {dblp 電腦科學參考書目,https://dblp.org} }
[主流 MT 和 NMT 評估的 LEPOR:] Marzouk, S. 和 Hansen-Schirra, S.「與其他 MT 架構相比,受控語言對神經機器翻譯的影響的評估」。機器翻譯雜誌(2019)。 https://doi.org/10.1007/s10590-019-09233-w
[LEPOR 在WMT 數據的元評估中表現最佳:] WMT13 中對hLEPOR 和nLEPOR 的表現進行了深入的統計分析,表明它在“西班牙語到西班牙語的個人語言對評估”中都是最佳指標之一。 2015 NAACL(https://github.com/ygraham/segment-mteval)
[LEPOR 用於搜尋評估:] Liu 等人。對話式搜尋評估指標的元評估,(2021) https://arxiv.org/pdf/2104.13453.pdf ACM Transactions on Information Systems
[LEPOR fo NLG 評估:] 為什麼我們需要新的 NLG 評估指標。作者:Jekaterina Novikova 等人 2017emnlp。 https://www.aclweb.org/anthology/D17-1238/