ALEXSIS:西班牙语词汇简化基准数据集
用于词汇简化的 ALEXSIS 西班牙语数据集包含 381 个实例。每个实例由一个句子、一个目标复杂词和 25 个候选替换组成。数据集格式与 LexMturk (Horn et al., 2014) 类似,但在 ALEXSIS 中,句子未标记化。 381 个实例中总共 380 个实例在句子中仅出现 1 次复杂词。句子中只有一个实例出现了两次复杂单词。第 263 行的实例就是这种情况。特殊句子是:“Limita alnorte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ”。复杂的词是“paraje”。复杂的单词“paraje”第一次出现是为注释者用粗体标记的。
这些实例的 UTF8 格式如下:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
请参阅下面的数据集实例。
__________
重要的是要降低国际足联在足球比赛中的标准。适应适应 适应 适应 适应 适应 适应 适应 适应 适应 适应 适应 适应 适应 适应 适应 适应 结合 难民 再次接受 难民 难民 适应 承认
__________
用于词汇简化的 ALEXSIS 西班牙语数据集也可以在 github 上找到:https://github.com/LaSTUS-TALN-UPF/ALEXSIS
如果您使用西班牙语的 ALEXSIS 数据集,请引用以下论文:
丹尼尔·费雷斯和奥拉西奥·萨吉恩。
ALEXSIS:西班牙语词汇简化数据集。
2022 年语言资源和评估会议 (LREC) 论文集。
bib格式的bibtex格式文件链接
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
ALEXSIS 数据集也发布在 Zenodo 上:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS 已在 TSAR-2022 词汇简化共享任务中用作评估西班牙语词汇简化系统的数据集。试验数据集中使用了 12 个实例,测试数据集中使用了 368 个实例。没有使用出现两次复杂词的实例。在此评估中,使用 TSAR-ES 测试数据集的 368 个实例对系统进行了评估。 https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
一篇论文描述了英语、葡萄牙语 (ALEXSIS-PT) 和西班牙语 (ALEXSIS) 的 TSAR-2022 共享任务数据集的编译,其中包括使用两种最先进的词汇简化方法进行的多项实验,已在此链接发表:https://www.frontiersin.org/articles/10.3389/frai.2022.991242 在本文中两种方法(LSBert(Qiang 等人) al., 2021)适用于西班牙语和 TUNER(Ferrés 等人,2017))使用 ALEXSIS 数据集的 381 个实例进行了评估。
英语、葡萄牙语和西班牙语的词汇简化基准。
Sanja Štajner、Daniel Ferrés、Matthew Shardlow、Kai North、Marcos Zampieri 和 Horacio Saggion。
正面。阿蒂夫。英特尔。秒。自然语言处理。
doi:10.3389/frai.2022.991242
Ferrés, D.、Saggion, H. 和 Gómez Guinovart, X. (2017b)。
适用于主要伊比利亚-罗曼语语言的适应性词汇简化架构。
首届构建语言通用 NLP 系统研讨会论文集(哥本哈根:计算语言学协会),40-47。
号码:10.18653/v1/W17-5406
Horn, C.、Manduca, C. 和 Kauchak, D. (2014)。
使用维基百科学习词汇简化器。
计算语言学协会第 52 届年会记录(第 2 卷:短论文),第 458-463 页,马里兰州巴尔的摩,6 月。计算语言学协会。
LexMturk 数据集:https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J.强,Y.李,Y.朱,Y.袁,Y.石和X.吴。
LSbert:基于 BER 的词法简化。
IEEE/ACM 音频、语音和语言处理交易,卷。 29,第 3064-3076 页,2021 年
doi:10.1109/TASLP.2021.3111589。
ALEXSIS 数据集根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License CC-BY-NC-SA-4.0 获得许可。
UPF(庞培法布拉大学)TALN 的 LaSTUS 实验室
丹尼尔·费雷斯 - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu(通讯作者)
ConMuTeS 项目链接:https://www.upf.edu/web/conmutes