LEPOR:具有可调参数和增强因子的自动机器翻译评估指标
为了获得更好的性能,不同语言(或语言对)情况下的 hLEPOR 参数设置可参见 WMT13 论文的表 1(通过语言的参数值) https://aclanthology.org/W13-2253.pdf 参数手动调整使用相应语言的验证集。为了自动调整参数,我们现在可以在 https://github.com/poethan/cushLEPOR 上使用 cushLEPOR
cmd命令示例:Perl the-evaluation-code.pl > Score-file.txt
感谢 Paolo Dr. (Awsome) Bolzoni,它以 WMT 指标提交格式生成句子级分数和系统级分数。例如
http://www.statmt.org/wmt18/metrics-task.html
“指标名称、语言对、测试集、系统、段编号、段分数、整体、可用”
“指标名称、语言对、测试集、系统、系统、系统级别分数、整体、可用”
对于 WMT2019 中有关 hLEPOR_baseline 的所有文件,例如重新运行 hLEPOR 基线进行比较或改进等,您可以在此驱动器文件夹中找到它们:(https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
我们在 WMT2019 中将其称为基线,因为我们没有调整指标中的参数,也没有使用我们在 WMT2013 中使用的语言特征。相反,仅使用一组默认参数,仅根据系统输出和参考文件测量分数,不使用外部资源。
[WMT2013] LEPOR 指标在从英语到其他 [en-fr en-de en-es en-cs en-ru(也是最好的WMT2013 中 en-cs en-ru)] 的得分。 https://www.aclweb.org/anthology/W13-2253(表 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf(表 3)
引用:
染色:
@inproceedings{han2012lepor,title={LEPOR:增强因子机器翻译的稳健评估指标},作者={Han,Aaron L.-F.和 Wong, Derek F. 和 Chao, Lidia S.},书名={第 24 届计算语言学国际会议论文集 (COLING 2012)},页数={441-450},年份={2012},组织={协会计算语言学} }
MT峰会:
@inproceedings{han2013language,title={具有强化因子的机器翻译评估的语言无关模型},作者={Han,Aaron L.-F.和 Wong、Derek F. 和 Chao、Lidia S. 和何、良业和陆、易和兴、俊文和曾晓东},书名={机器翻译峰会 XIV},页数={215--222},年份= {2013}, 组织={国际机器翻译协会} }
世界MT:
@inproceedings{W13-2253,标题 =“{WMT}13 Metrics Task 中可调机器翻译评估系统的描述”,作者 =“Han、Aaron Li-Feng 和 Wong、Derek F. 和 Chao、Lidia S. 和 Lu ,易和何,良野和王,一鸣和周,嘉吉”,书名=“第八届统计机器翻译研讨会论文集”,月份=八月,年份 =“2013”,地址 =“保加利亚索非亚”,出版商 =“计算语言学协会”,url =“https://www.aclweb.org/anthology/W13-2253”,页面 =“414- -421", }
硕士。论文:
@article{DBLP:journals/corr/Han17,作者 = {Lifefeng Han},标题 = {{LEPOR:} 增强机器翻译评估指标},期刊 = {CoRR},卷 = {abs/1703.08748},年份 = { 2017},url = {http://arxiv.org/abs/1703.08748},archivePrefix = {arXiv},eprint = {1703.08748},时间戳 = {星期一,2018 年 8 月 13 日 16:48:22 +0200},biburl = {https://dblp.org/rec/bib/journals/corr/Han17},bibsource = {dblp 计算机科学参考书目,https://dblp.org} }
[主流 MT 和 NMT 评估的 LEPOR:] Marzouk, S. 和 Hansen-Schirra, S.“与其他 MT 架构相比,评估受控语言对神经机器翻译的影响”。机器翻译杂志(2019)。 https://doi.org/10.1007/s10590-019-09233-w
[LEPOR 在 WMT 数据的元评估中表现最佳:] WMT13 中对 hLEPOR 和 nLEPOR 的表现进行了深入的统计分析,表明它是“在西班牙语到西班牙语的个人语言对评估中”的最佳指标之一。 -英语和 9 个语言对的聚合集。”,参见论文(准确评估段级机器翻译指标) “https://www.aclweb.org/anthology/N15-1124”Graham 等人。 2015 NAACL(https://github.com/ygraham/segment-mteval)
[LEPOR 用于搜索评估:] Liu 等人。对话式搜索评估指标的元评估,(2021) https://arxiv.org/pdf/2104.13453.pdf ACM Transactions on Information Systems
[LEPOR fo NLG 评估:] 为什么我们需要新的 NLG 评估指标。作者:Jekaterina Novikova 等人 2017emnlp。 https://www.aclweb.org/anthology/D17-1238/