ALEXSIS: 스페인어 어휘 단순화 벤치마킹을 위한 데이터세트
어휘 단순화를 위한 ALEXSIS 스페인어 데이터 세트에는 381개의 인스턴스가 포함되어 있습니다. 각 인스턴스는 문장, 대상 복합 단어 및 25개의 대체 후보로 구성됩니다. 데이터 세트 형식은 LexMturk(Horn et al., 2014)의 형식과 유사하지만 ALEXSIS에서는 문장이 토큰화되지 않습니다. 381개의 총 380개의 인스턴스는 문장에서 복잡한 단어가 단 1번만 나타납니다. 문장에서 복잡한 단어가 두 번 나타나는 경우는 단 하나뿐입니다. 이는 263행의 사례입니다. 특수 문장은 다음과 같습니다. "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ." 복잡한 단어는 "paraje"입니다. 복잡한 단어 "paraje"의 첫 등장은 주석자들에게 굵은 글씨로 표시된 것이었습니다.
인스턴스는 UTF8 형식으로 다음과 같습니다.
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
아래에서 데이터 세트의 인스턴스를 참조하세요.
__________
축구의 정상화를 위해 FIFA 표준에 따라 용량을 줄이는 것이 중요합니다. acogerseadarse sumarse incorporarse obedecer apegarseadaparseadarseadarse ampararse ampararseadarse apegarse aceptar asimilarseadaparse aplicarse aceptarse incorporarse refugiarse amparar recurrir aceptar refugiarse cumplir conadaptarse recognition
__________
어휘 단순화를 위한 ALEXSIS 스페인어 데이터 세트는 github에서도 찾을 수 있습니다: https://github.com/LaSTUS-TALN-UPF/ALEXSIS
스페인어용 ALEXSIS 데이터세트를 사용하는 경우 다음 논문을 인용해 주세요.
다니엘 페레스(Daniel Ferrés)와 호라시오 사기온(Horacio Saggion).
ALEXSIS: 스페인어 어휘 단순화를 위한 데이터세트.
언어 자원 및 평가 회의(LREC) 2022 간행물.
bib 형식의 bibtex 형식 파일에 대한 링크
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
ALEXSIS 데이터 세트는 Zenodo에도 게시되어 있습니다.
https://doi.org/10.5281/zenodo.5837149
ALEXSIS는 스페인어의 어휘 단순화 시스템을 평가하기 위한 데이터세트로 어휘 단순화에 관한 TSAR-2022 공유 작업에서 사용되었습니다. 시험 데이터 세트에는 12개의 인스턴스가 사용되었고, 테스트 데이터 세트에는 368개의 인스턴스가 사용되었습니다. 복합어가 두 번 나타나는 경우는 사용하지 않았습니다. 이 평가에서 시스템은 TSAR-ES 테스트 데이터세트의 368개 인스턴스를 사용하여 평가되었습니다. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
어휘 단순화를 위한 두 가지 최첨단 접근 방식을 사용한 여러 실험을 포함하는 영어, 포르투갈어(ALEXSIS-PT) 및 스페인어(ALEXSIS)에 대한 TSAR-2022 공유 작업 데이터 세트의 편집을 설명하는 문서가 이 링크에 게시되었습니다. : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 본 논문에서는 두 가지 접근법(LSBert(Qiang et al.) al., 2021) 및 TUNER(Ferrés et al., 2017))를 ALEXSIS 데이터세트의 381개 인스턴스로 평가했습니다.
영어, 포르투갈어, 스페인어에 대한 어휘 단순화 벤치마크.
Sanja Štajner, Daniel Ferrés, Matthew Shardlow, Kai North, Marcos Zampieri 및 Horacio Saggion.
앞쪽. Artif. 인텔. 비서. 자연어 처리.
도이: 10.3389/frai.2022.991242
Ferrés, D., Saggion, H. 및 Gómez Guinovart, X. (2017b).
주요 Ibero-Romance 언어에 대한 적응 가능한 어휘 단순화 아키텍처입니다.
언어적으로 일반화 가능한 NLP 시스템 구축에 관한 첫 번째 워크숍 진행 중(코펜하겐: 전산 언어학 협회), 40–47.
도이: 10.18653/v1/W17-5406
Horn, C., Manduca, C. 및 Kauchak, D. (2014).
Wikipedia를 사용하여 어휘 단순화 학습.
전산 언어학 협회 제52차 연례 회의 진행(제2권: 짧은 논문), 458~463페이지, 메릴랜드주 볼티모어, 6월. 전산언어학협회.
LexMturk 데이터세트: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang, Y. Li, Y. Zhu, Y. Yuan, Y. Shi 및 X. Wu.
LSbert: BER 기반 어휘 단순화.
오디오, 음성 및 언어 처리에 관한 IEEE/ACM 거래, vol. 29, pp.3064-3076, 2021
도이: 10.1109/TASLP.2021.3111589.
ALEXSIS 데이터 세트는 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 국제 라이선스 CC-BY-NC-SA-4.0에 따라 라이선스가 부여됩니다.
UPF(Universitat Pompeu Fabra)의 TALN에 있는 LaSTUS 연구소
다니엘 페레스(Daniel Ferrés) - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (교신저자)
ConMuTeS 프로젝트 링크: https://www.upf.edu/web/conmutes