ALEXSIS : un ensemble de données pour évaluer la simplification lexicale de l'espagnol
L'ensemble de données espagnol ALEXSIS pour la simplification lexicale contient 381 instances. Chaque instance est composée d'une phrase, d'un mot complexe cible et de 25 substitutions candidates. Le format de l'ensemble de données est similaire à celui de LexMturk (Horn et al., 2014), mais dans ALEXSIS, les phrases ne sont pas tokenisées. Au total, 380 instances sur 381 n'ont qu'une seule apparition du mot complexe dans la phrase. Il n’y a qu’une seule instance avec deux apparitions du mot complexe dans la phrase. C'est le cas de l'instance de la ligne 263. La phrase spéciale est : "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ". Le mot complexe est « paraje ». La première apparition du mot complexe « paraje » fut celle marquée en gras pour les annotateurs.
Les instances ont le format suivant en UTF8 :
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
Voir ci-dessous une instance de l'ensemble de données.
__________
Il a subi une réduction importante de sa capacité à pouvoir respecter les normes de la FIFA pour les stades de football. acogerse adaptarse sumarse incorporer obedecer apegarse adaptarse adaptarse ampararse ampararse adaptarse apegarse accepter asimilarse adaptarse aplicarse acceptarse incorporarse refugiarse amparar recurrir accepter refugiarse cumuler con adaptarse admetirse
__________
L'ensemble de données espagnol ALEXSIS pour la simplification lexicale est également disponible sur github : https://github.com/LaSTUS-TALN-UPF/ALEXSIS
Si vous utilisez l'ensemble de données ALEXSIS pour l'espagnol, veuillez citer l'article suivant :
Daniel Ferrés et Horacio Saggion.
ALEXSIS : un ensemble de données pour la simplification lexicale en espagnol.
Actes de la Conférence sur les ressources linguistiques et l'évaluation (LREC) 2022.
Lien vers le fichier au format bibtex au format bib
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
L'ensemble de données ALEXSIS est également publié sur Zenodo :
https://doi.org/10.5281/zenodo.5837149
ALEXSIS a été utilisé dans la tâche partagée TSAR-2022 sur la simplification lexicale comme ensemble de données pour évaluer les systèmes de simplification lexicale en espagnol. 12 instances ont été utilisées dans l'ensemble de données d'essai et 368 instances ont été utilisées dans l'ensemble de données de test. L’instance comportant deux apparitions du mot complexe n’a pas été utilisée. Dans cette évaluation, les systèmes ont été évalués avec les 368 instances de l'ensemble de données de test TSAR-ES. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
Un article décrivant la compilation des ensembles de données de tâches partagées TSAR-2022 pour l'anglais, le portugais (ALEXSIS-PT) et l'espagnol (ALEXSIS) qui comprend plusieurs expériences avec deux approches de pointe pour la simplification lexicale a été publié sur ce lien. : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 Dans cet article deux approches (LSBert (Qiang et al., 2021) adaptés pour l'espagnol et TUNER (Ferrés et al., 2017)) ont été évalués avec les 381 instances de l'ensemble de données ALEXSIS.
Benchmarks de simplification lexicale pour l’anglais, le portugais et l’espagnol.
Sanja Stajner, Daniel Ferrés, Matthew Shardlow, Kai North, Marcos Zampieri et Horacio Saggion.
Devant. Artif. Intell. Seconde. Traitement du langage naturel.
est ce que je: 10.3389/frai.2022.991242
Ferrés, D., Saggion, H. et Gómez Guinovart, X. (2017b).
Une architecture de simplification lexicale adaptable pour les principales langues ibéro-romanes.
Dans Actes du premier atelier sur la création de systèmes PNL linguistiquement généralisables (Copenhague : Association for Computational Linguistics), 40-47.
est ce que je: 10.18653/v1/W17-5406
Horn, C., Manduca, C. et Kauchak, D. (2014).
Apprendre un simplificateur lexical à l'aide de Wikipédia.
Dans Actes de la 52e réunion annuelle de l'Association for Computational Linguistics (Volume 2 : Short Papers), pages 458-463, Baltimore, Maryland, juin. Association pour la linguistique computationnelle.
Ensemble de données LexMturk : https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang, Y. Li, Y. Zhu, Y. Yuan, Y. Shi et X. Wu.
LSBert : Simplification lexicale basée sur BER.
Dans Transactions IEEE/ACM sur le traitement de l'audio, de la parole et du langage, vol. 29, p. 3064-3076, 2021
est ce que je : 10.1109/TASLP.2021.3111589.
L'ensemble de données ALEXSIS est sous licence internationale Creative Commons Attribution-Pas d'Utilisation Commerciale-Partage dans les mêmes conditions 4.0 CC-BY-NC-SA-4.0.
Laboratoire LaSTUS au TALN de l'UPF (Universitat Pompeu Fabra)
Daniel Ferrés - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (auteur correspondant)
Lien du projet ConMuTeS : https://www.upf.edu/web/conmutes