ALEXSIS: مجموعة بيانات لقياس التبسيط المعجمي للغة الإسبانية
تحتوي مجموعة بيانات ALEXSIS الإسبانية للتبسيط المعجمي على 381 حالة. يتكون كل مثيل من جملة، وكلمة معقدة مستهدفة، و25 بديلاً مرشحًا. يشبه تنسيق مجموعة البيانات تنسيق LexMturk (Horn et al., 2014) ولكن في ALEXSIS لا يتم ترميز الجمل. إجمالي 380 حالة من الـ 381 لها ظهور واحد فقط للكلمة المعقدة في الجملة. يوجد مثال واحد فقط مع ظهورين للكلمة المعقدة في الجملة. هذه هي الحالة في السطر 263. الجملة الخاصة هي: "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín". ". الكلمة المعقدة هي "باراجي". أول ظهور للكلمة المعقدة "paraje" كان هو الذي تم تمييزه بالخط العريض للمعلقين.
المثيلات لها التنسيق التالي في UTF8:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
انظر أدناه مثال لمجموعة البيانات.
__________
لقد عانى من انخفاض كبير في قدراته حتى يتمكن من الالتزام بمعايير FIFA لملاعب كرة القدم. acogerse محول sumarse دمج obedecer apegarse محول محول ampararse ampararse محول apegarse قبول مماثل محول aplicarse قبول دمج incorporarse recurrir قبول recurrir قبول refugiarse cumplir مع التكيف الاعتراف
__________
يمكن أيضًا العثور على مجموعة بيانات ALEXSIS الإسبانية للتبسيط المعجمي على github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS
إذا كنت تستخدم مجموعة بيانات ALEXSIS للغة الإسبانية، فيرجى الإشارة إلى الورقة التالية:
دانيال فيريس وهوراسيو ساجيون.
ALEXSIS: مجموعة بيانات للتبسيط المعجمي باللغة الإسبانية.
وقائع مؤتمر الموارد اللغوية والتقييم (LREC) 2022.
رابط إلى ملف تنسيق bibtex بتنسيق bib
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
تم نشر مجموعة بيانات ALEXSIS أيضًا في Zenodo:
https://doi.org/10.5281/zenodo.5837149
تم استخدام ALEXSIS في المهمة المشتركة TSAR-2022 حول التبسيط المعجمي كمجموعة بيانات لتقييم أنظمة التبسيط المعجمي باللغة الإسبانية. تم استخدام 12 مثيلًا في مجموعة البيانات التجريبية وتم استخدام 368 مثيلًا في مجموعة بيانات الاختبار. لم يتم استخدام المثيل الذي يحتوي على مظهرين للكلمة المعقدة. في هذا التقييم، تم تقييم الأنظمة باستخدام 368 نسخة من مجموعة بيانات اختبار TSAR-ES. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
تم نشر ورقة تصف تجميع مجموعات بيانات المهام المشتركة TSAR-2022 للغة الإنجليزية والبرتغالية (ALEXSIS-PT) والإسبانية (ALEXSIS) والتي تتضمن عدة تجارب مع نهجين متطورين للتبسيط المعجمي على هذا الرابط : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 في هذه الورقة منهجان (LSBert) (Qiang et al., 2021) المقتبسة للغة الإسبانية وTUNER (Ferrés et al., 2017)) تم تقييمها باستخدام 381 مثيلًا لمجموعة بيانات ALEXSIS.
معايير التبسيط المعجمي للغة الإنجليزية والبرتغالية والإسبانية.
سانجا ستاجنر، ودانيال فيريس، وماثيو شاردلو، وكاي نورث، وماركوس زامبيري، وهوراسيو ساجيون.
أمام. عارف. إنتل. ثانية. معالجة اللغات الطبيعية.
دوى: 10.3389/frai.2022.991242
فيريس، د.، ساجيون، ه.، وجوميز جينوفارت، إكس. (2017ب).
بنية تبسيط معجمية قابلة للتكيف للغات الأيبيرية الرومانسية الكبرى.
في وقائع ورشة العمل الأولى حول بناء أنظمة البرمجة اللغوية العصبية القابلة للتعميم لغويًا (كوبنهاغن: جمعية اللغويات الحاسوبية)، 40-47.
دوى: 10.18653/v1/W17-5406
هورن، سي.، ماندوكا، سي.، وكوشاك، د. (2014).
تعلم التبسيط المعجمي باستخدام ويكيبيديا.
في وقائع الاجتماع السنوي الثاني والخمسين لجمعية اللغويات الحاسوبية (المجلد 2: أوراق قصيرة)، الصفحات 458-463، بالتيمور، ميريلاند، يونيو. جمعية اللغويات الحاسوبية.
مجموعة بيانات LexMturk: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang، Y. Li، Y. Zhu، Y. Yuan، Y. Shi and X. Wu.
LSBert: التبسيط المعجمي على أساس BER.
في معاملات IEEE/ACM حول معالجة الصوت والكلام واللغة، المجلد. 29، ص 3064-3076، 2021
دوى: 10.1109/TASLP.2021.3111589.
مجموعة بيانات ALEXSIS مرخصة بموجب الرخصة الدولية Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License CC-BY-NC-SA-4.0.
مختبر LaSTUS في TALN في UPF (جامعة بومبيو فابرا)
دانيال فيريس - daniel.ferres[at]upf.edu
هوراسيو ساجيون - horacio.saggion[at]upf.edu (المؤلف المقابل)
رابط مشروع ConMuTeS: https://www.upf.edu/web/conmutes