ALEXSIS: un conjunto de datos para comparar la simplificación léxica del español
El conjunto de datos en español ALEXSIS para la simplificación léxica contiene 381 instancias. Cada instancia está compuesta por una oración, una palabra compleja objetivo y 25 sustituciones candidatas. El formato del conjunto de datos es similar al de LexMturk (Horn et al., 2014), pero en ALEXSIS las oraciones no están tokenizadas. Un total de 380 casos de los 381 tienen solo una aparición de la palabra compleja en la oración. Sólo hay un caso con dos apariciones de la palabra compleja en la oración. Este es el caso de la instancia de la línea 263. La frase especial es: "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ". La palabra compleja es "paraje". La primera aparición de la palabra compleja "paraje" fue la marcada en negrita para los anotadores.
Las instancias tienen el siguiente formato en UTF8:
<FRASE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
Vea a continuación una instancia del conjunto de datos.
__________
Sufrió una importante reducción en su capacidad para poder acogerse a las normas de la FIFA para los estadios de fútbol. acogerse adaptarse sumarse incorporarse obedecer apegarse adaptarse adaptarse ampararse ampararse adaptarse apegarse aceptar asimilarse adaptarse aplicar aceptarse incorporarse refugiarse amparar recurrir aceptar refugiarse cumplir con admitirse adaptarse
__________
El conjunto de datos en español de ALEXSIS para la simplificación léxica también se puede encontrar en github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS
Si utiliza el conjunto de datos ALEXSIS para español, cite el siguiente artículo:
Daniel Ferrés y Horacio Saggion.
ALEXSIS: Un conjunto de datos para la simplificación léxica en español.
Actas de la Conferencia de Evaluación y Recursos Lingüísticos (LREC) 2022.
Enlace al archivo en formato bibtex en formato babero
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
El conjunto de datos ALEXSIS también está publicado en Zenodo:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS se ha utilizado en la Tarea Compartida sobre Simplificación Léxica TSAR-2022 como conjunto de datos para evaluar sistemas de Simplificación Léxica en español. Se utilizaron 12 instancias en el conjunto de datos de prueba y 368 instancias en el conjunto de datos de prueba. No se utilizó el caso con dos apariciones de la palabra compleja. En esta evaluación, los sistemas se evaluaron con las 368 instancias del conjunto de datos de prueba TSAR-ES. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
En este enlace se ha publicado un artículo que describe la compilación de los conjuntos de datos de tareas compartidas TSAR-2022 para inglés, portugués (ALEXSIS-PT) y español (ALEXSIS) que incluye varios experimentos con dos enfoques de última generación para la simplificación léxica. : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 En este artículo dos enfoques (LSBert (Qiang et al., 2021) adaptado al español y TUNER (Ferrés et al., 2017)) fueron evaluados con las 381 instancias del conjunto de datos ALEXSIS.
Puntos de referencia de simplificación léxica para inglés, portugués y español.
Sanja Štajner, Daniel Ferrés, Matthew Shardlow, Kai North, Marcos Zampieri y Horacio Saggion.
Frente. Artif. Intel. Segundo. Procesamiento del lenguaje natural.
doi: 10.3389/frai.2022.991242
Ferrés, D., Saggion, H. y Gómez Guinovart, X. (2017b).
Una arquitectura de simplificación léxica adaptable para las principales lenguas iberorromances.
En Actas del primer taller sobre la construcción de sistemas de PNL lingüísticamente generalizables (Copenhague: Asociación de Lingüística Computacional), 40–47.
doi: 10.18653/v1/W17-5406
Horn, C., Manduca, C. y Kauchak, D. (2014).
Aprender un simplificador léxico usando Wikipedia.
En Actas de la 52ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 2: Artículos breves), páginas 458–463, Baltimore, Maryland, junio. Asociación de Lingüística Computacional.
Conjunto de datos de LexMturk: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang, Y. Li, Y. Zhu, Y. Yuan, Y. Shi y X. Wu.
LSBert: Simplificación léxica basada en BER.
En Transacciones IEEE/ACM sobre procesamiento de audio, voz y lenguaje, vol. 29, págs. 3064-3076, 2021
doi: 10.1109/TASLP.2021.3111589.
El conjunto de datos ALEXSIS tiene una licencia internacional Creative Commons Attribution-NonCommercial-ShareAlike 4.0 CC-BY-NC-SA-4.0.
Laboratorio LaSTUS en TALN de la UPF (Universitat Pompeu Fabra)
Daniel Ferrés - daniel.ferres[arroba]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (autor correspondiente)
Enlace del proyecto ConMuTeS: https://www.upf.edu/web/conmutes