ALEXSIS: um conjunto de dados para benchmarking de simplificação lexical para espanhol
O conjunto de dados espanhol ALEXSIS para simplificação lexical contém 381 instâncias. Cada instância é composta por uma frase, uma palavra complexa alvo e 25 substituições candidatas. O formato do conjunto de dados é semelhante ao do LexMturk (Horn et al., 2014), mas no ALEXSIS as sentenças não são tokenizadas. Um total de 380 ocorrências das 381 têm apenas 1 aparição da palavra complexa na frase. Há apenas uma instância com duas ocorrências da palavra complexa na frase. É o caso da instância da linha 263. A frase especial é: "Limita al norte con el paraje Árbol Solo, al sur con el paraje San Vicente, al este con la localidad de San Andrés y al oeste con el Canal San Martín ." A palavra complexa é "paraje". A primeira aparição da palavra complexa “paraje” foi aquela marcada em negrito para os anotadores.
As instâncias possuem o seguinte formato em UTF8:
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
Veja abaixo uma instância do conjunto de dados.
__________
Sofreu uma importante redução em sua capacidade para poder cumprir as normas da FIFA para os estádios de futebol. acogerse adaptarse sumarse incorporarse obedecer apegarse adaptarse adaptarse ampararse ampararse adaptarse apegarse aceptar asimilarse adaptarse aplicarse aceptarse incorporarse refugiarse amparar recurrir aceptar refugiarse cumprir cumprir com adaptarse assumir
__________
O conjunto de dados espanhol ALEXSIS para simplificação lexical também pode ser encontrado no github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS
Se você usar o conjunto de dados ALEXSIS para espanhol, cite o seguinte artigo:
Daniel Ferrés e Horácio Saggion.
ALEXSIS: um conjunto de dados para simplificação lexical em espanhol.
Anais da Conferência de Recursos Linguísticos e Avaliação (LREC) 2022.
Link para o arquivo no formato bibtex em formato bib
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
O conjunto de dados ALEXSIS também é publicado na Zenodo:
https://doi.org/10.5281/zenodo.5837149
ALEXSIS foi usado na Tarefa Compartilhada TSAR-2022 sobre Simplificação Lexical como um conjunto de dados para avaliar sistemas de Simplificação Lexical em espanhol. 12 instâncias foram usadas no conjunto de dados de teste e 368 instâncias foram usadas no conjunto de dados de teste. A instância com duas ocorrências da palavra complexa não foi utilizada. Nesta avaliação os sistemas foram avaliados com as 368 instâncias do conjunto de dados de teste TSAR-ES. https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
Um artigo que descreve a compilação dos conjuntos de dados de tarefas compartilhadas TSAR-2022 para inglês, português (ALEXSIS-PT) e espanhol (ALEXSIS) que inclui vários experimentos com duas abordagens de última geração para simplificação lexical foi publicado neste link : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 Neste artigo, duas abordagens (LSBert (Qiang et al., 2021) adaptado para espanhol e TUNER (Ferrés et al., 2017)) foram avaliados com as 381 instâncias do conjunto de dados ALEXSIS.
Benchmarks de simplificação lexical para inglês, português e espanhol.
Sanja Štajner, Daniel Ferrés, Matthew Shardlow, Kai North, Marcos Zampieri e Horacio Saggion.
Frente. Artefato. Intel. Seg. Processamento de linguagem natural.
doi: 10.3389/frai.2022.991242
Ferrés, D., Saggion, H. e Gómez Guinovart, X. (2017b).
Uma arquitetura de simplificação lexical adaptável para as principais línguas ibero-românicas.
Em Anais do Primeiro Workshop sobre Construção de Sistemas de PNL Generalizáveis Linguisticamente (Copenhague: Association for Computational Linguistics), 40–47.
doi: 10.18653/v1/W17-5406
Horn, C., Manduca, C. e Kauchak, D. (2014).
Aprendendo um simplificador lexical usando a Wikipedia.
Em Anais da 52ª Reunião Anual da Association for Computational Linguistics (Volume 2: Short Papers), páginas 458–463, Baltimore, Maryland, junho. Associação de Lingüística Computacional.
Conjunto de dados LexMturk: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang, Y. Li, Y. Zhu, Y. Yuan, Y. Shi e X. Wu.
LSBert: Simplificação Lexical Baseada em BER.
Em Transações IEEE/ACM em Processamento de Áudio, Fala e Linguagem, vol. 29, pp. 3064-3076, 2021
doi: 10.1109/TASLP.2021.3111589.
O conjunto de dados ALEXSIS está licenciado sob uma Licença Internacional Creative Commons Attribution-NonCommercial-ShareAlike 4.0 CC-BY-NC-SA-4.0.
Laboratório LaSTUS no TALN na UPF (Universitat Pompeu Fabra)
Daniel Ferrés - daniel.ferres[at]upf.edu
Horacio Saggion - horacio.saggion[at]upf.edu (autor correspondente)
Link do projeto ConMuTeS: https://www.upf.edu/web/conmutes