LEPOR : Métrique d'évaluation de la traduction automatique avec paramètres réglables et facteurs augmentés
Pour de meilleures performances, le réglage des paramètres hLEPOR sur différentes situations de langue (ou paire de langues) est disponible dans le tableau 1 (valeurs des paramètres via la langue) de l'article WMT13 https://aclanthology.org/W13-2253.pdf. Les paramètres ont été ajustés manuellement à l'aide de ensemble de validation de la langue correspondante. Pour le réglage automatique des paramètres, nous avons cushLEPOR désormais disponible sur https://github.com/poethan/cushLEPOR
Exemple de commande cmd : Perl the-evaluation-code.pl > score-file.txt
Grâce à Paolo Dr. (Awsome) Bolzoni, il génère le score au niveau de la phrase et le score au niveau du système sous forme de format de soumission de métriques WMT. par exemple
http://www.statmt.org/wmt18/metrics-task.html
"NOM MÉTRIQUE, PAIRE DE LANGUE, ENSEMBLE DE TEST, SYSTÈME, NUMÉRO DE SEGMENT, SCORE DE SEGMENT, ENSEMBLE, DISPONIBLE"
"NOM MÉTRIQUE, PAIRE DE LANGUE, ENSEMBLE DE TEST, SYSTÈME, SYSTÈME, SCORE DE NIVEAU SYSTÈME, ENSEMBLE, DISPONIBLE"
Pour tous les fichiers sur hLEPOR_baseline dans WMT2019, par exemple réexécutez la ligne de base hLEPOR pour comparaison ou amélioration, etc., vous pouvez les trouver tous dans ce dossier de lecteur : (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
Nous l'appelons référence dans WMT2019 car nous n'avons pas ajusté les paramètres de la métrique et n'avons pas non plus utilisé les fonctionnalités linguistiques que nous avons utilisées dans WMT2013. Au lieu de cela, utilisez simplement un ensemble de paramètres par défaut et mesurez uniquement les scores en fonction de la sortie du système et des fichiers de référence, sans utiliser de ressources externes.
[WMT2013] Les métriques LEPOR ont obtenu le score de corrélation de Pearson le plus élevé au niveau du système (0,86) avec le jugement humain, sur la moyenne de cinq paires de langues, de l'anglais à l'autre [en-fr en-de en-es en-cs en-ru (également le meilleur score sur en-cs en-ru)] dans WMT2013. https://www.aclweb.org/anthology/W13-2253 (Tableau 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (Tableau 3)
Citation:
COLAGE :
@inproceedings{han2012lepor, title={LEPOR : une métrique d'évaluation robuste pour la traduction automatique avec des facteurs augmentés}, author={Han, Aaron L.-F. et Wong, Derek F. et Chao, Lidia S.}, booktitle={Actes de la 24e Conférence internationale sur la linguistique computationnelle (COLING 2012)}, pages={441-450}, année={2012}, organisation={Association pour la linguistique computationnelle} }
SOMMET DU MT :
@inproceedings{han2013lingual, title={Modèle indépendant de la langue pour l'évaluation de la traduction automatique avec facteurs renforcés}, author={Han, Aaron L.-F. et Wong, Derek F. et Chao, Lidia S. et He, Liangye et Lu, Yi et Xing, Junwen et Zeng, Xiaodong}, booktitle={Machine Translation Summit XIV}, pages={215--222}, année= {2013}, organisation={Association internationale pour la traduction automatique} }
WMT :
@inproceedings{W13-2253, title = "Une description des systèmes d'évaluation de traduction automatique réglables dans la tâche {WMT}13 Metrics", auteur = "Han, Aaron Li-Feng et Wong, Derek F. et Chao, Lidia S. et Lu , Yi et He, Liangye et Wang, Yiming et Zhou, Jiaji", titre du livre = "Actes du huitième atelier sur la traduction automatique statistique", mois = août, année = "2013", adresse = "Sofia, Bulgarie", éditeur = "Association pour la linguistique informatique", url = "https://www.aclweb.org/anthology/W13-2253", pages = "414--421", }
Msc. thèse:
@article{DBLP:journals/corr/Han17, auteur = {Lifeng Han}, titre = {{LEPOR :} Une métrique d'évaluation de traduction automatique augmentée}, journal = {CoRR}, volume = {abs/1703.08748}, année = { 2017}, url = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, timestamp = {Lun, 13 août 2018 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {bibliographie informatique dblp, https://dblp.org} }
[LEPOR pour l'évaluation grand public de MT et NMT :] Marzouk, S. & Hansen-Schirra, S. « Évaluation de l'impact du langage contrôlé sur la traduction automatique neuronale par rapport à d'autres architectures de MT ». Journal de traduction automatique (2019). https://doi.org/10.1007/s10590-019-09233-w
[LEPOR dans la méta-évaluation la plus performante à partir des données WMT :] Il existe une analyse statistique approfondie des performances de hLEPOR et nLEPOR dans WMT13, qui montre qu'elles sont considérées comme l'une des meilleures mesures "dans l'évaluation individuelle des paires de langues pour l'espagnol vers -Anglais et l'ensemble agrégé de 9 paires de langues.", voir l'article (Accurate Évaluation of Segment-level Machine Translation Metrics) "https://www.aclweb.org/anthology/N15-1124" Graham et coll. NAACL 2015 (https://github.com/ygraham/segment-mteval)
[Évaluation LEPOR pour la recherche :] Liu et al. Méta-évaluation des métriques d'évaluation de la recherche conversationnelle, (2021) https://arxiv.org/pdf/2104.13453.pdf Transactions ACM sur les systèmes d'information
[LEPOR pour l'évaluation du NLG :] Pourquoi nous avons besoin de nouvelles mesures d'évaluation pour le NLG. par Jekaterina Novikova et al 2017emnlp. https://www.aclweb.org/anthology/D17-1238/