LEPOR: Métrica de avaliação automática de tradução automática com parâmetros ajustáveis e fatores aumentados
Para melhores desempenhos, a configuração dos parâmetros hLEPOR em diferentes situações de idioma (ou par de idiomas) está disponível na Tabela 1 (valores de parâmetros via idioma) do artigo WMT13 https://aclanthology.org/W13-2253.pdf Os parâmetros foram ajustados manualmente usando conjunto de validação do idioma correspondente. Para ajuste automático de parâmetros, temos cushLEPOR agora disponível em https://github.com/poethan/cushLEPOR
Exemplo de comando cmd: Perl the-evaluation-code.pl > score-file.txt
Graças a Paolo Dr. (Awsome) Bolzoni, ele gera a pontuação em nível de frase e a pontuação em nível de sistema como formato de envio de métricas WMT. por exemplo
http://www.statmt.org/wmt18/metrics-task.html
"NOME DA MÉTRICA, LANG-PAIR, CONJUNTO DE TESTE, SISTEMA, NÚMERO DO SEGMENTO, PONTUAÇÃO DO SEGMENTO, CONJUNTO, DISPONÍVEL"
"NOME DA MÉTRICA, LANG-PAIR, CONJUNTO DE TESTE, SISTEMA, SISTEMA, PONTUAÇÃO DE NÍVEL DO SISTEMA, CONJUNTO, DISPONÍVEL"
Para todos os arquivos sobre hLEPOR_baseline no WMT2019, por exemplo, reexecutar a linha de base hLEPOR para comparação ou melhoria, etc. você pode encontrá-los todos nesta pasta da unidade: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
Chamamos isso de linha de base no WMT2019 porque não ajustamos os parâmetros na métrica e também não usamos os recursos linguísticos que usamos no WMT2013. Em vez disso, apenas usei um conjunto de parâmetros padrão e mediu apenas as pontuações de acordo com a saída do sistema e arquivos de referência, sem uso de recursos externos.
[WMT2013] As métricas da LEPOR obtiveram a pontuação de correlação de Pearson de nível de sistema mais alta (0,86) com julgamento humano, na média de cinco pares de idiomas de inglês para outro [en-fr en-de en-es en-cs en-ru (também melhor pontuação em en-cs en-ru)] no WMT2013. https://www.aclweb.org/anthology/W13-2253 (Tabela 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (Tabela 3)
Citação:
COLAGEM:
@inproceedings{han2012lepor, title={LEPOR: Uma métrica de avaliação robusta para tradução automática com fatores aumentados}, autor={Han, Aaron L.-F. e Wong, Derek F. e Chao, Lidia S.}, booktitle={Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012)}, páginas={441-450}, ano={2012}, organização={Associação para Lingüística Computacional} }
CÚPULA DO MT:
@inproceedings{han2013idioma, título={Modelo independente de idioma para avaliação de tradução automática com fatores reforçados}, autor={Han, Aaron L.-F. e Wong, Derek F. e Chao, Lidia S. e He, Liangye e Lu, Yi e Xing, Junwen e Zeng, Xiaodong}, título do livro={Machine Translation Summit XIV}, páginas={215--222}, ano= {2013}, organização={Associação Internacional de Tradução Automática} }
WMT:
@inproceedings{W13-2253, title = "Uma descrição de sistemas ajustáveis de avaliação de tradução automática em {WMT}13 Metrics Task", autor = "Han, Aaron Li-Feng e Wong, Derek F. e Chao, Lidia S. e Lu , Yi e He, Liangye e Wang, Yiming e Zhou, Jiaji", booktitle = "Proceedings of the Eighth Workshop on Statistical Machine Translation", mês = agosto, ano = "2013", endereço = "Sofia, Bulgária", editor = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/W13-2253", páginas = "414--421 ",}
Mestrado tese:
@artigo{DBLP:journals/corr/Han17, autor = {Lifeng Han}, título = {{LEPOR:} Uma métrica de avaliação de tradução automática aumentada}, diário = {CoRR}, volume = {abs/1703.08748}, ano = { 2017}, url = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, timestamp = {Seg, 13 de agosto de 2018 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {bibliografia de ciência da computação dblp, https://dblp.org} }
[LEPOR para avaliação mainstream de MT e NMT:] Marzouk, S. & Hansen-Schirra, S. 'Avaliação do impacto da linguagem controlada na tradução automática neural em comparação com outras arquiteturas de MT'. Jornal de Tradução Automática (2019). https://doi.org/10.1007/s10590-019-09233-w
[LEPOR na meta-avaliação de alto desempenho a partir de dados do WMT:] Há uma análise estatística profunda sobre o desempenho de hLEPOR e nLEPOR no WMT13, que mostra que ele teve um desempenho como uma das melhores métricas "tanto na avaliação de pares de idiomas individuais para espanhol para -Inglês e o conjunto agregado de 9 pares de idiomas.", consulte o artigo (Avaliação precisa de métricas de tradução automática em nível de segmento) "https://www.aclweb.org/antology/N15-1124" Graham et al. NAACL 2015 (https://github.com/ygraham/segment-mteval)
[Avaliação LEPOR para Pesquisa:] Liu et al. Meta-avaliação de métricas de avaliação de pesquisa conversacional, (2021) https://arxiv.org/pdf/2104.13453.pdf Transações ACM em sistemas de informação
[LEPOR para avaliação NLG:] Por que precisamos de novas métricas de avaliação para NLG. por Jekaterina Novikova et al 2017emnlp. https://www.aclweb.org/antology/D17-1238/