LEPOR下载 - LEPOR源码下载

LEPOR

其他源码

下载

LEPOR

LEPOR：具有可调参数和增强因子的自动机器翻译评估指标

为了获得更好的性能，不同语言（或语言对）情况下的 hLEPOR 参数设置可参见 WMT13 论文的表 1（通过语言的参数值） https://aclanthology.org/W13-2253.pdf 参数手动调整使用相应语言的验证集。为了自动调整参数，我们现在可以在 https://github.com/poethan/cushLEPOR 上使用 cushLEPOR

cmd命令示例：Perl the-evaluation-code.pl > Score-file.txt

感谢 Paolo Dr. (Awsome) Bolzoni，它以 WMT 指标提交格式生成句子级分数和系统级分数。例如

http://www.statmt.org/wmt18/metrics-task.html

“指标名称、语言对、测试集、系统、段编号、段分数、整体、可用”

“指标名称、语言对、测试集、系统、系统、系统级别分数、整体、可用”

对于 WMT2019 中有关 hLEPOR_baseline 的所有文件，例如重新运行 hLEPOR 基线进行比较或改进等，您可以在此驱动器文件夹中找到它们：(https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)

在德国-捷克系统级 MT 评估中取得了最佳水平的性能指标。 Pearson 与人类判断的相关性得分：0.959 http://www.statmt.org/wmt19/pdf/53/WMT02.pdf 表 5 pp-74。（https://drive.google.com/file/d/1Bf2GbtlgZaU8h7ywXH8nzjuEKtLtCD77/view?usp=sharing 中的表 6）。

我们在 WMT2019 中将其称为基线，因为我们没有调整指标中的参数，也没有使用我们在 WMT2013 中使用的语言特征。相反，仅使用一组默认参数，仅根据系统输出和参考文件测量分数，不使用外部资源。

[WMT2013] LEPOR 指标在从英语到其他 [en-fr en-de en-es en-cs en-ru（也是最好的WMT2013 中 en-cs en-ru)] 的得分。 https://www.aclweb.org/anthology/W13-2253（表 3） https://www.statmt.org/wmt13/pdf/WMT02.pdf（表 3）

引用:

染色：

@inproceedings{han2012lepor，title={LEPOR：增强因子机器翻译的稳健评估指标}，作者={Han，Aaron L.-F.和 Wong, Derek F. 和 Chao, Lidia S.}，书名={第 24 届计算语言学国际会议论文集 (COLING 2012)}，页数={441-450}，年份={2012}，组织={协会计算语言学} }

MT峰会：

@inproceedings{han2013language，title={具有强化因子的机器翻译评估的语言无关模型}，作者={Han，Aaron L.-F.和 Wong、Derek F. 和 Chao、Lidia S. 和何、良业和陆、易和兴、俊文和曾晓东}，书名={机器翻译峰会 XIV}，页数={215--222}，年份= {2013}, 组织={国际机器翻译协会} }

世界MT：

@inproceedings{W13-2253，标题 =“{WMT}13 Metrics Task 中可调机器翻译评估系统的描述”，作者 =“Han、Aaron Li-Feng 和 Wong、Derek F. 和 Chao、Lidia S. 和 Lu ，易和何，良野和王，一鸣和周，嘉吉”，书名=“第八届统计机器翻译研讨会论文集”，月份=八月，年份 =“2013”，地址 =“保加利亚索非亚”，出版商 =“计算语言学协会”，url =“https://www.aclweb.org/anthology/W13-2253”，页面 =“414- -421", }

硕士。论文：

@article{DBLP:journals/corr/Han17，作者 = {Lifefeng Han}，标题 = {{LEPOR:} 增强机器翻译评估指标}，期刊 = {CoRR}，卷 = {abs/1703.08748}，年份 = { 2017}，url = {http://arxiv.org/abs/1703.08748}，archivePrefix = {arXiv}，eprint = {1703.08748}，时间戳 = {星期一，2018 年 8 月 13 日 16:48:22 +0200}，biburl = {https://dblp.org/rec/bib/journals/corr/Han17}，bibsource = {dblp 计算机科学参考书目，https://dblp.org} }

使用/引用/讨论 LEPOR 的工作/项目/论文（hLEPOR、nLEPOR）：

[主流 MT 和 NMT 评估的 LEPOR：] Marzouk, S. 和 Hansen-Schirra, S.“与其他 MT 架构相比，评估受控语言对神经机器翻译的影响”。机器翻译杂志（2019）。 https://doi.org/10.1007/s10590-019-09233-w

[LEPOR 在 WMT 数据的元评估中表现最佳：] WMT13 中对 hLEPOR 和 nLEPOR 的表现进行了深入的统计分析，表明它是“在西班牙语到西班牙语的个人语言对评估中”的最佳指标之一。 -英语和 9 个语言对的聚合集。”，参见论文（准确评估段级机器翻译指标） “https://www.aclweb.org/anthology/N15-1124”Graham 等人。 2015 NAACL（https://github.com/ygraham/segment-mteval）

[LEPOR 用于搜索评估：] Liu 等人。对话式搜索评估指标的元评估，(2021) https://arxiv.org/pdf/2104.13453.pdf ACM Transactions on Information Systems

[LEPOR fo NLG 评估：] 为什么我们需要新的 NLG 评估指标。作者：Jekaterina Novikova 等人 2017emnlp。 https://www.aclweb.org/anthology/D17-1238/

展开

附加信息