ALEXSIS: Ein Datensatz zum Benchmarking der lexikalischen Vereinfachung für Spanisch
Der spanische ALEXSIS-Datensatz zur lexikalischen Vereinfachung enthält 381 Instanzen. Jede Instanz besteht aus einem Satz, einem komplexen Zielwort und 25 möglichen Substitutionen. Das Datensatzformat ähnelt dem von LexMturk (Horn et al., 2014), aber in ALEXSIS werden die Sätze nicht tokenisiert. In insgesamt 380 der 381 Instanzen kommt das komplexe Wort nur einmal im Satz vor. Es gibt nur eine Instanz mit zwei Vorkommen des komplexen Worts im Satz. Dies ist bei der Instanz in Zeile 263 der Fall. Der spezielle Satz lautet: „Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín.“ ." Das komplexe Wort ist „paraje“. Das erste Auftreten des komplexen Wortes „paraje“ war für die Kommentatoren fett markiert.
Die Instanzen haben das folgende Format in UTF8:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
Unten sehen Sie eine Instanz des Datensatzes.
__________
Sie müssen Ihre Kapazität erheblich reduzieren, um in den Fußballstadien den FIFA-Normen entsprechen zu können. Akzeptieren, zusammenfassen, zusammenfassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anpassen, anwenden, akzeptieren, anpassen, integrieren, zurückziehen, vergleichen, wiederkehren, zurücksetzen, zurückziehen, mit der angepassten Aufnahme verbinden
__________
Der spanische ALEXSIS-Datensatz zur lexikalischen Vereinfachung ist auch auf Github zu finden: https://github.com/LaSTUS-TALN-UPF/ALEXSIS
Wenn Sie den ALEXSIS-Datensatz für Spanisch nutzen, zitieren Sie bitte das folgende Dokument:
Daniel Ferrés und Horacio Saggion.
ALEXSIS: Ein Datensatz zur lexikalischen Vereinfachung auf Spanisch.
Tagungsband der Language Resources and Evaluation Conference (LREC) 2022.
Link zur Bibtex-Formatdatei im Bib-Format
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
Der ALEXSIS-Datensatz wird auch bei Zenodo veröffentlicht:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS wurde in der gemeinsamen Aufgabe TSAR-2022 zur lexikalischen Vereinfachung als Datensatz zur Bewertung lexikalischer Vereinfachungssysteme auf Spanisch verwendet. Im Versuchsdatensatz wurden 12 Instanzen und im Testdatensatz 368 Instanzen verwendet. Die Instanz mit zwei Vorkommen des komplexen Worts wurde nicht verwendet. Bei dieser Bewertung wurden die Systeme mit den 368 Instanzen des TSAR-ES-Testdatensatzes bewertet. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
Unter diesem Link wurde ein Artikel veröffentlicht, der die Zusammenstellung der TSAR-2022 Shared Task-Datensätze für Englisch, Portugiesisch (ALEXSIS-PT) und Spanisch (ALEXSIS) beschreibt und mehrere Experimente mit zwei hochmodernen Ansätzen zur lexikalischen Vereinfachung umfasst : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 In diesem Artikel werden zwei Ansätze (LSBert (Qiang et al., 2021) angepasst für Spanisch und TUNER (Ferrés et al., 2017)) wurden mit den 381 Instanzen des ALEXSIS-Datensatzes ausgewertet.
Benchmarks zur lexikalischen Vereinfachung für Englisch, Portugiesisch und Spanisch.
Sanja Štajner, Daniel Ferrés, Matthew Shardlow, Kai North, Marcos Zampieri und Horacio Saggion.
Front. Artif. Intel. Sek. Verarbeitung natürlicher Sprache.
doi: 10.3389/frai.2022.991242
Ferrés, D., Saggion, H. und Gómez Guinovart, X. (2017b).
Eine anpassbare lexikalische Vereinfachungsarchitektur für die wichtigsten iberoromanischen Sprachen.
In Proceedings of the First Workshop on Building Linguistically Generalizable NLP Systems (Kopenhagen: Association for Computational Linguistics), 40–47.
doi: 10.18653/v1/W17-5406
Horn, C., Manduca, C. und Kauchak, D. (2014).
Lernen eines lexikalischen Vereinfachers mithilfe von Wikipedia.
In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Band 2: Short Papers), Seiten 458–463, Baltimore, Maryland, Juni. Verein für Computerlinguistik.
LexMturk-Datensatz: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang, Y. Li, Y. Zhu, Y. Yuan, Y. Shi und X. Wu.
LSBert: Lexikalische Vereinfachung basierend auf BER.
In IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, S. 3064-3076, 2021
doi: 10.1109/TASLP.2021.3111589.
Der ALEXSIS-Datensatz ist unter der Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License CC-BY-NC-SA-4.0 lizenziert.
LaSTUS-Labor bei TALN an der UPF (Universitat Pompeu Fabra)
Daniel Ferrés – daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (korrespondierender Autor)
ConMuTeS-Projekt Link: https://www.upf.edu/web/conmutes