ALEXSIS:西班牙文詞彙簡化基準資料集
用於詞彙簡化的 ALEXSIS 西班牙語資料集包含 381 個實例。每個實例由一個句子、一個目標複雜字詞和 25 個候選替換組成。資料集格式與 LexMturk (Horn et al., 2014) 類似,但在 ALEXSIS 中,句子未標記化。 381 個實例中總共 380 個實例在句子中僅出現 1 個複雜詞。句子中只有一個實例出現了兩次複雜單字。第 263 行的實例就是這種情況。複雜的字是“paraje”。複雜的單字「paraje」第一次出現是為註解者用粗體標記的。
這些實例的 UTF8 格式如下:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
請參閱下面的資料集實例。
__________
重要的是要降低國際足總在足球比賽中的標準。適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應適應
__________
用於詞彙簡化的 ALEXSIS 西班牙語資料集也可以在 github 上找到:https://github.com/LaSTUS-TALN-UPF/ALEXSIS
如果您使用西班牙文的 ALEXSIS 資料集,請引用以下論文:
丹尼爾·費雷斯和奧拉西奧·薩吉恩。
ALEXSIS:西班牙文詞彙簡化資料集。
2022 年語言資源與評估會議 (LREC) 論文集。
bib格式的bibtex格式檔案鏈接
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
ALEXSIS 資料集也發佈在 Zenodo 上:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS 已在 TSAR-2022 詞彙簡化共享任務中用作評估西班牙語詞彙簡化系統的資料集。試驗資料集中使用了 12 個實例,測試資料集中使用了 368 個實例。沒有使用出現兩次複雜詞的實例。在此評估中,使用 TSAR-ES 測試資料集的 368 個實例對系統進行了評估。 https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
一篇論文描述了英語、葡萄牙語(ALEXSIS-PT) 和西班牙語(ALEXSIS) 的TSAR-2022 共享任務資料集的編譯,其中包括使用兩種最先進的詞彙簡化方法進行的多項實驗,已在此連結發表:https://www.frontiersin.org/articles/10.3389/frai.2022.991242 在本文中,對兩種方法(適用於西班牙語的LSBert(Qiang 等人,2021)和TUNER(Ferrés 等人, 2017))進行了評估ALEXSIS 資料集的 381 個實例。
英語、葡萄牙語和西班牙語的詞彙簡化基準。
Sanja Štajner、Daniel Ferrés、Matthew Shardlow、Kai North、Marcos Zampieri 和 Horacio Saggion。
正面。阿蒂夫。英特爾。秒。自然語言處理。
doi:10.3389/frai.2022.991242
Ferrés, D.、Saggion, H. 與 Gómez Guinovart, X. (2017b)。
適用於主要伊比利亞-羅曼語語言的適應性詞彙簡化架構。
首屆建構語言通用 NLP 系統研討會論文集(哥本哈根:計算語言學協會),40-47。
編號:10.18653/v1/W17-5406
Horn, C.、Manduca, C. 與 Kauchak, D. (2014)。
使用維基百科學習詞彙簡化器。
計算語言學協會第 52 屆年會記錄(第 2 卷:短論文),第 458-463 頁,馬裡蘭州巴爾的摩,6 月。計算語言學協會。
LexMturk 資料集:https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J.強,Y.李,Y.朱,Y.袁,Y.石和X.吳。
LSbert:基於 BER 的詞法簡化。
IEEE/ACM 音訊、語音和語言處理交易,卷。 29,第 3064-3076 頁,2021 年
doi:10.1109/TASLP.2021.3111589。
ALEXSIS 資料集根據 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License CC-BY-NC-SA-4.0 授權。
UPF(龐培法布拉大學)TALN 的 LaSTUS 實驗室
丹尼爾·費雷斯 - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu(通訊作者)
ConMuTeS 專案連結:https://www.upf.edu/web/conmutes