Unduhan ALEXSIS - Unduhan kode sumber ALEXSIS

ALEXSIS

Kode sumber lainnya

1.0.0

Unduh

ALEXSIS

ALEXSIS: Kumpulan Data untuk Membandingkan Penyederhanaan Leksikal untuk Bahasa Spanyol

Keterangan

Kumpulan Data Spanyol ALEXSIS untuk Penyederhanaan Leksikal berisi 381 contoh. Setiap contoh terdiri dari satu kalimat, satu kata kompleks sasaran, dan 25 calon pengganti. Format kumpulan datanya mirip dengan LexMturk (Horn et al., 2014) tetapi di ALEXSIS kalimatnya tidak diberi token. Sebanyak 380 contoh dari 381 hanya memiliki 1 kemunculan kata majemuk dalam kalimat. Hanya ada satu contoh dengan dua kemunculan kata kompleks dalam kalimat. Hal ini terjadi pada contoh baris 263. Kalimat khususnya adalah: "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ." Kata majemuknya adalah "paraje". Kemunculan pertama kata kompleks "paraje" adalah yang ditandai dengan huruf tebal untuk para anotator.

Instans memiliki format berikut dalam UTF8:

Lihat di bawah contoh kumpulan data.

__________
Memberikan pengurangan penting dalam kapasitasnya agar dapat mencapai norma FIFA di stadion sepak bola. acogerse adaptarse sumarse incorporarse obedecer apegarse adaptarse adaptarse ampararse ampararse adaptarse apegarse aceptar asimilarse adaptarse aplicarse aceptarse incorporarse refugiarse amparar recurrir aceptar refugiarse cumplir con adaptarse penerimaan
__________

Kumpulan Data Spanyol ALEXSIS untuk Penyederhanaan Leksikal juga dapat ditemukan di github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS

Kutipan

Jika Anda menggunakan kumpulan data ALEXSIS untuk bahasa Spanyol, harap kutip makalah berikut:

Daniel Ferrés dan Horacio Saggion.
ALEXSIS: Kumpulan Data untuk Penyederhanaan Leksikal dalam bahasa Spanyol.
Prosiding Konferensi Sumber Daya dan Evaluasi Bahasa (LREC) 2022.

Tautan ke file format bibtex dalam format bib

 @inproceedings{ferres-saggion@LREC2022,
    title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
    author = "Ferrés, Daniel  and Saggion, Horacio",
    booktitle      = {Proceedings of the Language Resources and Evaluation Conference},
    month          = {June},
    year           = {2022},
    address        = {Marseille, France},
    publisher      = {European Language Resources Association},
    pages     = {3582--3594},
    url       = {https://aclanthology.org/2022.lrec-1.383}
}

Dataset ALEXSIS juga dipublikasikan di Zenodo:
https://doi.org/10.5281/zenodo.5837149

Pekerjaan Terkait

Tugas Bersama TSAR-2022 tentang Penyederhanaan Leksikal

ALEXSIS telah digunakan dalam Tugas Bersama TSAR-2022 tentang Penyederhanaan Leksikal sebagai kumpulan data untuk mengevaluasi sistem Penyederhanaan Leksikal dalam bahasa Spanyol. 12 instance digunakan dalam dataset uji coba dan 368 instance digunakan dalam dataset pengujian. Contoh dengan dua kemunculan kata majemuk tidak digunakan. Dalam evaluasi ini sistem dievaluasi dengan 368 contoh kumpulan data pengujian TSAR-ES. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task

Eksperimen dengan ALEXSIS dan kumpulan data serupa untuk bahasa Inggris dan Portugis (ALEXSIS-PT)

Makalah yang menjelaskan kompilasi kumpulan data Tugas Bersama TSAR-2022 untuk Bahasa Inggris, Portugis (ALEXSIS-PT) dan Spanyol (ALEXSIS) yang mencakup beberapa eksperimen dengan dua pendekatan canggih untuk Penyederhanaan Leksikal telah dipublikasikan di tautan ini : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 Dalam makalah ini ada dua pendekatan (LSBert (Qiang et al., 2021) diadaptasi untuk bahasa Spanyol dan TUNER (Ferrés et al., 2017)) dievaluasi dengan 381 contoh kumpulan data ALEXSIS.

Tolok Ukur Penyederhanaan Leksikal untuk Bahasa Inggris, Portugis, dan Spanyol.
Sanja Štajner, Daniel Ferrés, Matthew Shardlow, Kai North, Marcos Zampieri dan Horacio Saggion.
Depan. Artif. Intel. Detik. Pemrosesan Bahasa Alami.
doi: 10.3389/frai.2022.991242

Referensi

Ferrés, D., Saggion, H., dan Gómez Guinovart, X. (2017b).
Arsitektur penyederhanaan leksikal yang dapat disesuaikan untuk bahasa-bahasa Utama Ibero-Romawi.
Dalam Prosiding Lokakarya Pertama tentang Membangun Sistem NLP yang Dapat Digeneralisasikan Secara Linguistik (Kopenhagen: Asosiasi Linguistik Komputasi), 40–47.
doi: 10.18653/v1/W17-5406

Horn, C., Manduca, C., dan Kauchak, D. (2014).
Mempelajari Penyederhanaan Leksikal Menggunakan Wikipedia.
Dalam Prosiding Pertemuan Tahunan ke-52 Asosiasi Linguistik Komputasi (Volume 2: Makalah Pendek), halaman 458–463, Baltimore, Maryland, Juni. Asosiasi Linguistik Komputasi.

Kumpulan data LexMturk: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz

J. Qiang, Y. Li, Y. Zhu, Y. Yuan, Y. Shi dan X. Wu.
LSBert: Penyederhanaan Leksikal Berdasarkan BER.
Dalam Transaksi IEEE/ACM pada Audio, Ucapan, dan Pemrosesan Bahasa, vol. 29, hal.3064-3076, 2021
doi: 10.1109/TASLP.2021.3111589.

Lisensi

Kumpulan data ALEXSIS dilisensikan di bawah Lisensi Internasional Creative Commons Attribution-NonCommercial-ShareAlike 4.0 CC-BY-NC-SA-4.0.

Kontak

Lab LaSTUS di TALN di UPF (Universitat Pompeu Fabra)

Daniel Ferrés - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (penulis yang sesuai)

Tautan proyek ConMuTeS: https://www.upf.edu/web/conmutes

Ucapan Terima Kasih

Proyek ConMuTeS: Penyederhanaan Teks Multibahasa Sadar Konteks (ConMuTeS) PID2019-109066GB-I00/AEI/10.13039/501100011033
Ministerio de Ciencia, Innovación y Universidades (MCIU) Spanyol
Agencia Estatal de Investigación (AEI) Spanyol

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-01-09
ukuran 65.74KB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
chat.petals.dev

2024-11-30
SmartTube

2024-12-14
viptools for eslam

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
MySchedule.py

Kode sumber lainnya

Updates to the fetching of week codes
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua