ALEXSIS: Kumpulan Data untuk Membandingkan Penyederhanaan Leksikal untuk Bahasa Spanyol
Kumpulan Data Spanyol ALEXSIS untuk Penyederhanaan Leksikal berisi 381 contoh. Setiap contoh terdiri dari satu kalimat, satu kata kompleks sasaran, dan 25 calon pengganti. Format kumpulan datanya mirip dengan LexMturk (Horn et al., 2014) tetapi di ALEXSIS kalimatnya tidak diberi token. Sebanyak 380 contoh dari 381 hanya memiliki 1 kemunculan kata majemuk dalam kalimat. Hanya ada satu contoh dengan dua kemunculan kata kompleks dalam kalimat. Hal ini terjadi pada contoh baris 263. Kalimat khususnya adalah: "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ." Kata majemuknya adalah "paraje". Kemunculan pertama kata kompleks "paraje" adalah yang ditandai dengan huruf tebal untuk para anotator.
Instans memiliki format berikut dalam UTF8:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
Lihat di bawah contoh kumpulan data.
__________
Memberikan pengurangan penting dalam kapasitasnya agar dapat mencapai norma FIFA di stadion sepak bola. acogerse adaptarse sumarse incorporarse obedecer apegarse adaptarse adaptarse ampararse ampararse adaptarse apegarse aceptar asimilarse adaptarse aplicarse aceptarse incorporarse refugiarse amparar recurrir aceptar refugiarse cumplir con adaptarse penerimaan
__________
Kumpulan Data Spanyol ALEXSIS untuk Penyederhanaan Leksikal juga dapat ditemukan di github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS
Jika Anda menggunakan kumpulan data ALEXSIS untuk bahasa Spanyol, harap kutip makalah berikut:
Daniel Ferrés dan Horacio Saggion.
ALEXSIS: Kumpulan Data untuk Penyederhanaan Leksikal dalam bahasa Spanyol.
Prosiding Konferensi Sumber Daya dan Evaluasi Bahasa (LREC) 2022.
Tautan ke file format bibtex dalam format bib
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
Dataset ALEXSIS juga dipublikasikan di Zenodo:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS telah digunakan dalam Tugas Bersama TSAR-2022 tentang Penyederhanaan Leksikal sebagai kumpulan data untuk mengevaluasi sistem Penyederhanaan Leksikal dalam bahasa Spanyol. 12 instance digunakan dalam dataset uji coba dan 368 instance digunakan dalam dataset pengujian. Contoh dengan dua kemunculan kata majemuk tidak digunakan. Dalam evaluasi ini sistem dievaluasi dengan 368 contoh kumpulan data pengujian TSAR-ES. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
Makalah yang menjelaskan kompilasi kumpulan data Tugas Bersama TSAR-2022 untuk Bahasa Inggris, Portugis (ALEXSIS-PT) dan Spanyol (ALEXSIS) yang mencakup beberapa eksperimen dengan dua pendekatan canggih untuk Penyederhanaan Leksikal telah dipublikasikan di tautan ini : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 Dalam makalah ini ada dua pendekatan (LSBert (Qiang et al., 2021) diadaptasi untuk bahasa Spanyol dan TUNER (Ferrés et al., 2017)) dievaluasi dengan 381 contoh kumpulan data ALEXSIS.
Tolok Ukur Penyederhanaan Leksikal untuk Bahasa Inggris, Portugis, dan Spanyol.
Sanja Štajner, Daniel Ferrés, Matthew Shardlow, Kai North, Marcos Zampieri dan Horacio Saggion.
Depan. Artif. Intel. Detik. Pemrosesan Bahasa Alami.
doi: 10.3389/frai.2022.991242
Ferrés, D., Saggion, H., dan Gómez Guinovart, X. (2017b).
Arsitektur penyederhanaan leksikal yang dapat disesuaikan untuk bahasa-bahasa Utama Ibero-Romawi.
Dalam Prosiding Lokakarya Pertama tentang Membangun Sistem NLP yang Dapat Digeneralisasikan Secara Linguistik (Kopenhagen: Asosiasi Linguistik Komputasi), 40–47.
doi: 10.18653/v1/W17-5406
Horn, C., Manduca, C., dan Kauchak, D. (2014).
Mempelajari Penyederhanaan Leksikal Menggunakan Wikipedia.
Dalam Prosiding Pertemuan Tahunan ke-52 Asosiasi Linguistik Komputasi (Volume 2: Makalah Pendek), halaman 458–463, Baltimore, Maryland, Juni. Asosiasi Linguistik Komputasi.
Kumpulan data LexMturk: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang, Y. Li, Y. Zhu, Y. Yuan, Y. Shi dan X. Wu.
LSBert: Penyederhanaan Leksikal Berdasarkan BER.
Dalam Transaksi IEEE/ACM pada Audio, Ucapan, dan Pemrosesan Bahasa, vol. 29, hal.3064-3076, 2021
doi: 10.1109/TASLP.2021.3111589.
Kumpulan data ALEXSIS dilisensikan di bawah Lisensi Internasional Creative Commons Attribution-NonCommercial-ShareAlike 4.0 CC-BY-NC-SA-4.0.
Lab LaSTUS di TALN di UPF (Universitat Pompeu Fabra)
Daniel Ferrés - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (penulis yang sesuai)
Tautan proyek ConMuTeS: https://www.upf.edu/web/conmutes