ALEXSIS: スペイン語の語彙簡略化のベンチマーク用データセット
字句簡素化用の ALEXSIS スペイン語データセットには 381 のインスタンスが含まれています。各インスタンスは、文、ターゲット複合語、および 25 個の置換候補で構成されます。データセットの形式は LexMturk (Horn et al., 2014) の形式と似ていますが、ALEXSIS では文がトークン化されません。 381 個のインスタンスのうち、合計 380 個のインスタンスには、文中に複合語が 1 回しか出現しません。文中に複合語が 2 回出現するインスタンスは 1 つだけです。これは、263 行目の例の場合です。特別な文は次のとおりです。「アルボル ソロの制限、サン ビセンテの制限、サン アンドレスの地元の地域、サン マルティン運河の制限」 。」複雑な単語は「パラジェ」です。 「パラジェ」という複雑な単語が最初に出現したのは、注釈者のために太字でマークされた単語でした。
インスタンスの UTF8 形式は次のとおりです。
<SENTENCE><TAB><COMPLEX_WORD_IN_SENTENCE><TAB><SUBSTITUTION_1><TAB>...<TAB><SUBSTITUTION_25>
以下のデータセットのインスタンスを参照してください。
__________
サッカー競技場での FIFA の規範として、重要な要素を削減する必要があります。 acogerseadaptarsesumarseincorporarseobedecerapegarseadaptarseampararseampararseadaptarseapegarseaceptarasimilarseadaptarseaplicarseaceptarseincorporarserefugearseampararrecurriraceptarrefugearsecumplirconadaptarseadirse
__________
字句単純化のための ALEXSIS スペイン語データセットは、github: https://github.com/LaSTUS-TALN-UPF/ALEXSIS にもあります。
スペイン語の ALEXSIS データセットを使用する場合は、次の論文を引用してください。
ダニエル・フェレスとオラシオ・サギオン。
ALEXSIS: スペイン語の語彙簡略化のためのデータセット。
2022 年の言語資源評価会議 (LREC) の議事録。
bib形式のbibtex形式ファイルへのリンク
@inproceedings{ferres-saggion@LREC2022,
title = "ALEXSIS: A Dataset for Lexical Simplification in Spanish.",
author = "Ferrés, Daniel and Saggion, Horacio",
booktitle = {Proceedings of the Language Resources and Evaluation Conference},
month = {June},
year = {2022},
address = {Marseille, France},
publisher = {European Language Resources Association},
pages = {3582--3594},
url = {https://aclanthology.org/2022.lrec-1.383}
}
ALEXSIS データセットは Zenodo でも公開されています。
https://doi.org/10.5281/zenodo.5837149
ALEXSIS は、スペイン語の字句簡略化システムを評価するためのデータセットとして、字句簡略化に関する TSAR-2022 共有タスクで使用されています。トライアル データセットでは 12 個のインスタンスが使用され、テスト データセットでは 368 個のインスタンスが使用されました。複合語が 2 回出現するインスタンスは使用されませんでした。この評価では、TSAR-ES テスト データセットの 368 インスタンスを使用してシステムが評価されました。 https://github.com/LaSTUS-TALN-UPF/TSAR-2022-Shared-Task
英語、ポルトガル語 (ALEXSIS-PT)、スペイン語 (ALEXSIS) の TSAR-2022 共有タスク データセットのコンパイルについて説明した論文が公開されています。これには、字句単純化のための 2 つの最先端のアプローチを使用したいくつかの実験が含まれています。 : https://www.frontiersin.org/articles/10.3389/frai.2022.991242 この論文では 2 つのアプローチ (LSBert (Qiang et al., 2021) スペイン語と TUNER (Ferrés et al., 2017) に適応させたものは、ALEXSIS データセットの 381 インスタンスを使用して評価されました。
英語、ポルトガル語、スペイン語の語彙簡略化ベンチマーク。
サンヤ・シュタイナー、ダニエル・フェレス、マシュー・シャードロウ、カイ・ノース、マルコス・ザンピエリ、オラシオ・サッギオン。
フロント。アーティフ。知性。秒自然言語処理。
土井: 10.3389/frai.2022.991242
Ferrés, D.、Saggion, H.、Gómez Guinovart, X. (2017b)。
主要なイベロ・ロマンス言語向けの適応可能な語彙簡略化アーキテクチャ。
言語学的に一般化可能な NLP システムの構築に関する最初のワークショップの議事録 (コペンハーゲン: 計算言語学協会)、40 ~ 47。
土井: 10.18653/v1/W17-5406
Horn, C.、Manduca, C.、および Kauchak, D. (2014)。
ウィキペディアを使用して語彙の簡略化を学習します。
計算言語学協会第 52 回年次総会議事録 (第 2 巻: 短編論文)、458 ~ 463 ページ、メリーランド州ボルチモア、6 月。計算言語学協会。
LexMturk データセット: https://cs.pomona.edu/~dkauchak/simplification/lex.mturk.14/lex.mturk.14.tar.gz
J. Qiang、Y. Li、Y. Zhu、Y. Yuan、Y. Shi、X. Wu。
LSBert: BER に基づく語彙の簡略化。
IEEE/ACM Transactions on Audio, Speech, and Language Processing、vol. 29、pp.3064-3076、2021
土井: 10.1109/TASLP.2021.3111589。
ALEXSIS データセットは、クリエイティブ コモンズ 表示 - 非営利 - 継承 4.0 国際ライセンス CC-BY-NC-SA-4.0 に基づいてライセンスされています。
UPF(ポンペウ・ファブラ大学)のTALNにあるLaSTUS研究室
ダニエル・フェレス - daniel.ferres[at]upf.edu
オラシオ・サギオン - horacio.saggion[at]upf.edu (責任著者)
ConMuTeS プロジェクトのリンク: https://www.upf.edu/web/conmutes