LEPOR: Métrica de evaluación de traducción automática con parámetros ajustables y factores aumentados
Para obtener mejores rendimientos, la configuración de parámetros hLEPOR en diferentes situaciones de idioma (o par de idiomas) está disponible en la Tabla 1 (valores de parámetros a través del idioma) del documento WMT13 https://aclanthology.org/W13-2253.pdf Los parámetros se ajustaron manualmente usando conjunto de validación del idioma correspondiente. Para el ajuste automático de parámetros, tenemos cushLEPOR ahora disponible en https://github.com/poethan/cushLEPOR
Ejemplo de comando cmd: Perl el-código-de-evaluación.pl > archivo-puntuación.txt
Gracias a Paolo Dr. (Awsome) Bolzoni, genera la puntuación a nivel de oración y la puntuación a nivel de sistema como formato de envío de métricas WMT. p.ej
http://www.statmt.org/wmt18/metrics-task.html
"NOMBRE DE MÉTRICA, PAR DE IDIOMA, CONJUNTO DE PRUEBA, SISTEMA, NÚMERO DE SEGMENTO, PUNTUACIÓN DEL SEGMENTO, CONJUNTO, DISPONIBLE"
"NOMBRE DE MÉTRICA, PAR DE IDIOMA, CONJUNTO DE PRUEBA, SISTEMA, SISTEMA, PUNTUACIÓN DE NIVEL DEL SISTEMA, CONJUNTO, DISPONIBLE"
Para todos los archivos sobre hLEPOR_baseline en WMT2019, por ejemplo, vuelva a ejecutar hLEPOR baseline para comparar o mejorar, etc., puede encontrarlos todos en esta carpeta de unidad: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
Lo llamamos línea de base en WMT2019 porque no ajustamos los parámetros en la métrica y tampoco usamos las características lingüísticas que usamos en WMT2013. En su lugar, simplemente usó un conjunto de parámetros predeterminados y solo midió las puntuaciones de acuerdo con la salida del sistema y los archivos de referencia, sin utilizar recursos externos.
[WMT2013] Las métricas de LEPOR obtuvieron la puntuación de correlación de Pearson a nivel del sistema más alta (0,86) con el criterio humano, en los cinco pares de idiomas promedio, desde inglés a otros [en-fr en-de en-es en-cs en-ru (también mejor puntuación en en-cs en-ru)] en WMT2013. https://www.aclweb.org/anthology/W13-2253 (Tabla 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (Tabla 3)
Citación:
ENFRIAMIENTO:
@inproceedings{han2012lepor, title={LEPOR: una métrica de evaluación sólida para traducción automática con factores aumentados}, autor={Han, Aaron L.-F. y Wong, Derek F. y Chao, Lidia S.}, título del libro={Actas de la 24ª Conferencia Internacional sobre Lingüística Computacional (COLING 2012)}, páginas={441-450}, año={2012}, organización={Asociación para Lingüística Computacional} }
CUMBRE DE MT:
@inproceedings{han2013language, title={Modelo independiente del idioma para evaluación de traducción automática con factores reforzados}, autor={Han, Aaron L.-F. y Wong, Derek F. y Chao, Lidia S. y He, Liangye y Lu, Yi y Xing, Junwen y Zeng, Xiaodong}, título del libro={Cumbre de Traducción Automática XIV}, páginas={215--222}, año= {2013}, organización={Asociación Internacional de Traducción Automática} }
WMT:
@inproceedings{W13-2253, title = "Una descripción de sistemas de evaluación de traducción automática sintonizables en {WMT}13 Metrics Task", autor = "Han, Aaron Li-Feng y Wong, Derek F. y Chao, Lidia S. y Lu , Yi y He, Liangye y Wang, Yiming y Zhou, Jiaji", booktitle = "Actas del octavo taller sobre traducción automática estadística", mes = agosto, año = "2013", dirección = "Sofía, Bulgaria", editor = "Asociación de Lingüística Computacional", url = "https://www.aclweb.org/anthology/W13-2253", páginas = "414--421", }
Máster. tesis:
@article{DBLP:journals/corr/Han17, autor = {Lifeng Han}, título = {{LEPOR:} Una métrica de evaluación de traducción automática aumentada}, revista = {CoRR}, volumen = {abs/1703.08748}, año = { 2017}, URL = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, marca de tiempo = {lunes, 13 de agosto de 2018 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {computadora dblp bibliografía científica, https://dblp.org} }
[LEPOR para la evaluación de MT y NMT convencional:] Marzouk, S. & Hansen-Schirra, S. 'Evaluación del impacto del lenguaje controlado en la traducción automática neuronal en comparación con otras arquitecturas de MT'. Revista de traducción automática (2019). https://doi.org/10.1007/s10590-019-09233-w
[LEPOR en la metaevaluación de alto rendimiento a partir de datos de WMT:] Hay un análisis estadístico profundo sobre el desempeño de hLEPOR y nLEPOR en WMT13, que muestra que se desempeñó como una de las mejores métricas "tanto en la evaluación de pares de idiomas individuales para español como -Inglés y el conjunto agregado de 9 pares de idiomas", consulte el documento (Evaluación precisa de métricas de traducción automática a nivel de segmento) "https://www.aclweb.org/anthology/N15-1124" Graham et al. NAACL 2015 (https://github.com/ygraham/segment-mteval)
[LEPOR para evaluación de búsqueda:] Liu et al. Metaevaluación de métricas de evaluación de búsqueda conversacional, (2021) https://arxiv.org/pdf/2104.13453.pdf Transacciones ACM en sistemas de información
[LEPOR para la evaluación de NLG:] Por qué necesitamos nuevas métricas de evaluación para NLG. por Jekaterina Novikova et al 2017emnlp. https://www.aclweb.org/anthology/D17-1238/