ALEXSIS: ชุดข้อมูลสำหรับการเปรียบเทียบการลดความซับซ้อนของคำศัพท์สำหรับภาษาสเปน
ชุดข้อมูล ALEXSIS Spanish สำหรับการลดความซับซ้อนของคำศัพท์มี 381 อินสแตนซ์ แต่ละกรณีประกอบด้วยประโยค คำที่ซับซ้อนเป้าหมาย และการแทนที่ผู้สมัคร 25 รายการ รูปแบบชุดข้อมูลจะคล้ายกับของ LexMturk (Horn et al., 2014) แต่ใน ALEXSIS ประโยคจะไม่ถูกโทเค็น จำนวน 380 กรณีจาก 381 กรณีมีเพียง 1 คำที่ปรากฏในประโยคเท่านั้น มีเพียงกรณีเดียวเท่านั้นที่มีคำที่ซับซ้อนปรากฏสองครั้งในประโยค นี่เป็นกรณีของบรรทัดที่ 263 ประโยคพิเศษคือ: "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ” คำที่ซับซ้อนคือ "paraje" การปรากฏตัวครั้งแรกของคำที่ซับซ้อน "paraje" คือคำที่ทำเครื่องหมายด้วยตัวหนาสำหรับคำอธิบายประกอบ
อินสแตนซ์มีรูปแบบต่อไปนี้ใน UTF8:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
ดูตัวอย่างด้านล่างของชุดข้อมูล
-
Sufrió una majore reducción en su capacidad para poder acogerse a las normas de la FIFA para los estadios de fútbol. acogerse adapterarse sumarse incorporarse obedecer apegarse adapterarse adaptarse ampararse ampararse adapterarse apegarse aceptar asimilarse adaptarse aplicarse aceptarse incorporarse refugiarse amparar ซ้ำอีก aceptar refugiarse cumplir con adapterarse ยอมรับ
-
ชุดข้อมูลภาษาสเปนของ ALEXSIS สำหรับการลดความซับซ้อนของคำศัพท์ยังมีอยู่ที่ github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS
หากคุณใช้ชุดข้อมูล ALEXSIS สำหรับภาษาสเปน โปรดอ้างอิงเอกสารต่อไปนี้:
ดาเนียล เฟอร์เรซ และโฮราซิโอ แซกจิออน
ALEXSIS: ชุดข้อมูลสำหรับการลดความซับซ้อนของคำศัพท์ในภาษาสเปน
การดำเนินการของการประชุมทรัพยากรและการประเมินผลภาษา (LREC) 2022
ลิงก์ไปยังไฟล์รูปแบบ bibtex ในรูปแบบ bib
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
ชุดข้อมูล ALEXSIS ยังเผยแพร่ที่ Zenodo:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS ถูกนำมาใช้ในงานที่ใช้ร่วมกันของ TSAR-2022 เกี่ยวกับการลดความซับซ้อนของคำศัพท์เป็นชุดข้อมูลในการประเมินระบบการลดความซับซ้อนของคำศัพท์ในภาษาสเปน มีการใช้อินสแตนซ์ 12 รายการในชุดข้อมูลทดลอง และใช้อินสแตนซ์ 368 รายการในชุดข้อมูลทดสอบ ไม่ได้ใช้ตัวอย่างที่มีคำที่ซับซ้อนสองลักษณะ ในการประเมินนี้ ระบบได้รับการประเมินด้วยอินสแตนซ์ 368 อินสแตนซ์ของชุดข้อมูลทดสอบ TSAR-ES https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
บทความที่อธิบายการรวบรวมชุดข้อมูล TSAR-2022 Shared Task สำหรับภาษาอังกฤษ โปรตุเกส (ALEXSIS-PT) และสเปน (ALEXSIS) ซึ่งรวมถึงการทดลองหลายครั้งด้วยแนวทางที่ล้ำสมัยสองวิธีสำหรับการลดความซับซ้อนของคำศัพท์ ได้รับการเผยแพร่ที่ลิงก์นี้ : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 ในบทความนี้มี 2 แนวทาง (LSBert (Qiang et al., 2021) ปรับให้เหมาะกับภาษาสเปนและ TUNER (Ferrés et al., 2017)) ได้รับการประเมินด้วย 381 อินสแตนซ์ของชุดข้อมูล ALEXSIS
เกณฑ์มาตรฐานการลดความซับซ้อนของคำศัพท์สำหรับภาษาอังกฤษ โปรตุเกส และสเปน
ซานย่า ชทาจเนอร์, ดาเนียล เฟอร์เรส, แมทธิว ชาร์ดโลว์, ไค นอร์ธ, มาร์กอส ซัมปิเอรี และโฮราซิโอ ซากเกียน
ด้านหน้า. อาร์ติฟ. Intell วินาที. การประมวลผลภาษาธรรมชาติ
ดอย: 10.3389/frai.2022.991242
Ferrés, D., Saggion, H. และ Gómez Guinovart, X. (2017b)
สถาปัตยกรรมการทำให้คำศัพท์ง่ายขึ้นที่ปรับเปลี่ยนได้สำหรับภาษาอิเบโร-โรมานซ์หลัก
ใน การดำเนินการของการประชุมเชิงปฏิบัติการครั้งแรกเกี่ยวกับการสร้างระบบ NLP ที่สามารถสรุปได้ทางภาษาศาสตร์ (โคเปนเฮเกน: สมาคมภาษาศาสตร์คอมพิวเตอร์), 40–47
ดอย: 10.18653/v1/W17-5406
Horn, C., Manduca, C. และ Kauchak, D. (2014)
การเรียนรู้ตัวลดคำศัพท์โดยใช้วิกิพีเดีย
ใน รายงานการประชุมประจำปีครั้งที่ 52 ของสมาคมภาษาศาสตร์คอมพิวเตอร์ (เล่มที่ 2: เอกสารสั้น) หน้า 458–463 บัลติมอร์ แมริแลนด์ มิถุนายน สมาคมภาษาศาสตร์คอมพิวเตอร์
ชุดข้อมูล LexMturk: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
เจ.เฉียง, วาย. ลี่, ย. จู, ย. หยวน, ย. ชิและเอ็กซ์. วู
LSBert: ลดความซับซ้อนของคำศัพท์ตาม BER
ในธุรกรรม IEEE/ACM เกี่ยวกับเสียง คำพูด และการประมวลผลภาษา ฉบับที่ 1 29 หน้า 3064-3076 2021
ดอย: 10.1109/TASLP.2021.3111589.
ชุดข้อมูล ALEXSIS ได้รับอนุญาตภายใต้ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License CC-BY-NC-SA-4.0
ห้องปฏิบัติการ LaSTUS ที่ TALN ที่ UPF (มหาวิทยาลัย Pompeu Fabra)
แดเนียล เฟอร์เรส - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (ผู้เขียนที่เกี่ยวข้อง)
ลิงค์โครงการ ConMuTeS: https://www.upf.edu/web/conmutes