LEPOR: Automatische Bewertungsmetrik für maschinelle Übersetzung mit einstellbaren Parametern und erweiterten Faktoren
Für bessere Leistungen ist die hLEPOR-Parametereinstellung für verschiedene Sprachsituationen (oder Sprachpaare) in Tabelle 1 (Parameterwerte über die Sprache) des WMT13-Artikels https://aclanthology.org/W13-2253.pdf verfügbar. Die Parameter wurden manuell mit optimiert Validierungssatz der entsprechenden Sprache. Für die automatische Abstimmung von Parametern steht cushLEPOR jetzt unter https://github.com/poethan/cushLEPOR zur Verfügung
Beispiel für einen cmd-Befehl: Perl the-evaluation-code.pl > score-file.txt
Dank Paolo Dr. (Awsome) Bolzoni werden die Bewertung auf Satzebene und die Bewertung auf Systemebene als WMT-Metrik-Übermittlungsformat generiert. z.B
http://www.statmt.org/wmt18/metrics-task.html
„METRISCHER NAME, SPRACHENPAAR, TESTSATZ, SYSTEM, SEGMENTNUMMER, SEGMENTWERTUNG, ENSEMBLE, VERFÜGBAR“
„METRISCHER NAME, SPRACHENPAAR, TESTSATZ, SYSTEM, SYSTEM, SYSTEMEBENE-Score, ENSEMBLE, VERFÜGBAR“
Alle Dateien zu hLEPOR_baseline in WMT2019, z. B. hLEPOR-Baseline zum Vergleich oder zur Verbesserung usw. erneut ausführen, finden Sie alle in diesem Laufwerksordner: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
Wir nennen es in WMT2019 Baseline, weil wir die Parameter in der Metrik nicht optimiert und auch nicht die sprachlichen Funktionen verwendet haben, die wir in WMT2013 verwendet haben. Stattdessen wurde lediglich eine Reihe von Standardparametern verwendet und die Ergebnisse nur anhand der Systemausgabe und Referenzdateien gemessen, ohne dass externe Ressourcen verwendet wurden.
[WMT2013] LEPOR-Metriken erzielten mit menschlicher Beurteilung den höchsten Pearson-Korrelationswert auf Systemebene (0,86) für die durchschnittlich fünf Sprachpaare von Englisch zu Anderen [en-fr en-de en-es en-cs en-ru (ebenfalls am besten). Partitur auf en-cs en-ru)] in WMT2013. https://www.aclweb.org/anthology/W13-2253 (Tabelle 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (Tabelle 3)
Zitat:
COLING:
@inproceedings{han2012lepor, title={LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors}, Autor={Han, Aaron L.-F. und Wong, Derek F. und Chao, Lidia S.}, Buchtitel={Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012)}, Seiten={441-450}, Jahr={2012}, Organisation={Association für Computerlinguistik} }
MT-GIPFEL:
@inproceedings{han2013Sprache, Titel={Sprachunabhängiges Modell zur maschinellen Übersetzungsbewertung mit verstärkten Faktoren}, Autor={Han, Aaron L.-F. und Wong, Derek F. und Chao, Lidia S. und He, Liangye und Lu, Yi und Xing, Junwen und Zeng, Xiaodong}, Buchtitel={Machine Translation Summit XIV}, Seiten={215--222}, Jahr= {2013}, Organisation={International Association for Machine Translation} }
WMT:
@inproceedings{W13-2253, title = „Eine Beschreibung abstimmbarer maschineller Übersetzungsbewertungssysteme in {WMT}13 Metrics Task“, Autor = „Han, Aaron Li-Feng und Wong, Derek F. und Chao, Lidia S. und Lu , Yi und He, Liangye und Wang, Yiming und Zhou, Jiaji“, booktitle = „Proceedings of the Eighth Workshop on Statistical Machine Translation“, Monat = aug, Jahr = „2013“, Adresse = „Sofia, Bulgarien“, Herausgeber = „Association for Computational Linguistics“, url = „https://www.aclweb.org/anthology/W13-2253“, Seiten = „414- -421", }
Msc. These:
@article{DBLP:journals/corr/Han17, Autor = {Lifeng Han}, Titel = {{LEPOR:} An Augmented Machine Translation Evaluation Metric}, Zeitschrift = {CoRR}, Band = {abs/1703.08748}, Jahr = { 2017}, url = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, timestamp = {Mo, 13 Aug 2018 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {dblp Informatik-Bibliographie, https://dblp.org} }
[LEPOR für Mainstream-MT- und NMT-Bewertung:] Marzouk, S. & Hansen-Schirra, S. „Bewertung der Auswirkungen kontrollierter Sprache auf die neuronale maschinelle Übersetzung im Vergleich zu anderen MT-Architekturen“. Zeitschrift für maschinelle Übersetzung (2019). https://doi.org/10.1007/s10590-019-09233-w
[LEPOR in der leistungsstärksten Metabewertung aus WMT-Daten:] Es gibt eine umfassende statistische Analyse der hLEPOR- und nLEPOR-Leistung in WMT13, die zeigt, dass es sich um eine der besten Messgrößen „sowohl bei der individuellen Sprachpaarbewertung für Spanisch-zu“ handelt -Englisch und der aggregierte Satz von 9 Sprachpaaren“, siehe das Papier (Accurate Evaluation of Segment-level Machine Translation Metrics) „https://www.aclweb.org/anthology/N15-1124“ Graham et al. 2015 NAACL (https://github.com/ygraham/segment-mteval)
[LEPOR zur Suchauswertung:] Liu et al. Meta-Evaluation von Conversational Search Evaluation Metrics, (2021) https://arxiv.org/pdf/2104.13453.pdf ACM-Transaktionen in Informationssystemen
[LEPOR für NLG-Bewertung:] Warum wir neue Bewertungsmetriken für NLG brauchen. von Jekaterina Novikova et al. 2017emnlp. https://www.aclweb.org/anthology/D17-1238/