ALEXSIS: набор данных для сравнительного анализа лексического упрощения испанского языка
Набор испанских данных ALEXSIS для лексического упрощения содержит 381 экземпляр. Каждый экземпляр состоит из предложения, целевого сложного слова и 25 возможных замен. Формат набора данных аналогичен формату LexMturk (Horn et al., 2014), но в ALEXSIS предложения не токенизированы. Всего в 380 случаях из 381 сложное слово встречается в предложении только один раз. В предложении имеется только один экземпляр с двумя появлениями сложного слова. Так обстоит дело с экземпляром в строке 263. Специальное предложение: «Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ." Сложное слово — «параже». Первое появление сложного слова «paraje» было отмечено комментаторами жирным шрифтом.
Экземпляры имеют следующий формат в UTF8:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
См. ниже экземпляр набора данных.
__________
Это важное сокращение ваших возможностей, чтобы можно было соблюдать нормы ФИФА на футбольных стадионах. Acogerse Adaptarse Sumarse Incorporarse Obedecer Apegarse Adaptarse Adaptarse Ampararse Ampararse Adaptarse Apegarse Aceptar Asimilarse Adaptarse Aplicarse Aceptarse Incorporarse Refugiarse Amparar Recurrir Aceptar Refugiarse cumplir Con Adaptarse Acceptirse
__________
Набор испанских данных ALEXSIS для лексического упрощения также можно найти на github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS.
Если вы используете набор данных ALEXSIS для испанского языка, дайте ссылку на следующий документ:
Даниэль Феррес и Орасио Саджион.
ALEXSIS: набор данных для лексического упрощения испанского языка.
Материалы конференции по языковым ресурсам и оценке (LREC) 2022.
Ссылка на файл формата bibtex в формате bib
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
Набор данных ALEXSIS также опубликован на Zenodo:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS использовался в совместном задании TSAR-2022 по лексическому упрощению в качестве набора данных для оценки систем лексического упрощения на испанском языке. В наборе пробных данных было использовано 12 экземпляров, а в наборе тестовых данных — 368 экземпляров. Экземпляр с двумя появлениями сложного слова не использовался. В ходе этой оценки системы оценивались с использованием 368 экземпляров тестового набора данных TSAR-ES. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
По этой ссылке опубликован документ, описывающий компиляцию наборов данных общих задач TSAR-2022 для английского, португальского (ALEXSIS-PT) и испанского (ALEXSIS) и включающий несколько экспериментов с двумя современными подходами к лексическому упрощению. : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 В этой статье два подхода (LSBert (Qiang et al., 2021), адаптированные для испанского языка, и TUNER (Ferrés et al., 2017)) были оценены с использованием 381 экземпляра набора данных ALEXSIS.
Тесты лексического упрощения для английского, португальского и испанского языков.
Санья Штайнер, Даниэль Феррес, Мэттью Шардлоу, Кай Норт, Маркос Зампиери и Орасио Саггион.
Передний. Артиф. Интел. Разд. Обработка естественного языка.
дои: 10.3389/frai.2022.991242
Феррес Д., Саджион Х. и Гомес Гиновар X. (2017b).
Адаптируемая архитектура лексического упрощения для основных иберо-романских языков.
В материалах первого семинара по созданию лингвистически обобщаемых систем НЛП (Копенгаген: Ассоциация компьютерной лингвистики), 40–47.
дои: 10.18653/v1/W17-5406
Хорн К., Мандука К. и Каучак Д. (2014).
Изучение лексического упростителя с помощью Википедии.
В материалах 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи), страницы 458–463, Балтимор, Мэриленд, июнь. Ассоциация компьютерной лингвистики.
Набор данных LexMturk: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
Цзян Цян, Ю. Ли, Ю. Чжу, Ю. Юань, Ю. Ши и С. Ву.
LSBert: лексическое упрощение на основе BER.
В IEEE/ACM Transactions on Audio, Speech и Language Processing, vol. 29, стр. 3064-3076, 2021 г.
дои: 10.1109/TASLP.2021.3111589.
Набор данных ALEXSIS доступен под лицензией Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License CC-BY-NC-SA-4.0.
Лаборатория LaSTUS в TALN при UPF (Университет Помпеу Фабра)
Даниэль Феррес - daniel.ferres[at]upf.edu
Орасио Саггион - horacio.saggion[at]upf.edu (автор-корреспондент)
Ссылка на проект ConMuTeS: https://www.upf.edu/web/conmutes