LEPOR: 調整可能なパラメータと拡張係数を備えた自動機械翻訳評価指標
パフォーマンスを向上させるために、さまざまな言語 (または言語ペア) 状況での hLEPOR パラメーター設定が、WMT13 論文の表 1 (言語によるパラメーター値) https://aclanthology.org/W13-2253.pdf で利用可能です。パラメーターは、以下を使用して手動で調整されました。対応する言語の検証セット。パラメータの自動調整用に、https://github.com/poethan/cushLEPOR で cushLEPOR を利用できるようになりました。
cmd コマンドの例: Perl the-evaluation-code.pl > core-file.txt
Paolo Dr. (Awsome) Bolzoni のおかげで、文レベルのスコアとシステムレベルのスコアが WMT メトリクス送信形式として生成されます。例えば
http://www.statmt.org/wmt18/metrics-task.html
「メトリクス名、LANGペア、テストセット、システム、セグメント番号、セグメントスコア、アンサンブル、利用可能」
「メトリクス名、LANGペア、テストセット、システム、システム、システムレベルスコア、アンサンブル、利用可能」
WMT2019 の hLEPOR_baseline に関するすべてのファイル (比較や改善のための hLEPOR ベースラインの再実行など) については、すべてこのドライブ フォルダーで見つけることができます: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
WMT2019 では、メトリクスのパラメーターを調整せず、WMT2013 で使用した言語機能も使用しなかったため、これをベースラインと呼びます。代わりに、デフォルトのパラメーターのセットを使用し、システム出力と参照ファイルに従ってスコアのみを測定し、外部リソースは使用しません。
[WMT2013] LEPOR メトリクスは、英語からその他の言語までの 5 つの言語ペアにおいて、人間の判断力と最高のシステム レベルのピアソン相関スコア (0.86) を達成しました。[en-fr en-de en-es en-cs en-ru (また最高) WMT2013 の en-cs en-ru)] のスコア。 https://www.aclweb.org/anthology/W13-2253 (表 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (表 3)
引用:
コーリング:
@inproceedings{han2012lepor, title={LEPOR: 拡張要素を使用した機械翻訳の堅牢な評価指標}, author={Han, Aaron L.-F. Wong、Derek F.、Chao、Lidia S.}、booktitle={第 24 回計算言語学国際会議議事録 (COLING 2012)}、ページ={441-450}、年={2012}、組織={協会計算言語学向け} }
MTサミット:
@inproceedings{han2013 language, title={強化要素を使用した機械翻訳評価のための言語に依存しないモデル}, author={Han, Aaron L.-F.ウォン、デレク F.、チャオ、リディア S.、ヒー、梁業、ルー、イー、シン、ジュンウェン、ゼン、シャオドン}、booktitle={機械翻訳サミット XIV}、ページ={215--222}、年= {2013}、組織={国際機械翻訳協会} }
WMT:
@inproceedings{W13-2253、タイトル = "{WMT}13 メトリクス タスクにおける調整可能な機械翻訳評価システムの説明"、著者 = "Han、Aaron Li-Feng および Wong、Derek F. および Chao、Lidia S. および Lu 、易と何、良業と王、宜明と周、嘉事」、書名 = 「第 8 回ワークショップの議事録」 Statistical Machine Translation"、月 = 8 月、年 = "2013"、住所 = "ブルガリア、ソフィア"、出版社 = "計算言語学協会"、URL = "https://www.aclweb.org/anthology/W13-2253 "、ページ = "414--421"、}
女史論文:
@article{DBLP:journals/corr/Han17、著者 = {Lifeng Han}、タイトル = {{LEPOR:} 拡張機械翻訳評価指標}、ジャーナル = {CoRR}、巻数 = {abs/1703.08748}、年 = { 2017}、URL = {http://arxiv.org/abs/1703.08748}、archivePrefix = {arXiv}、 eprint = {1703.08748}、タイムスタンプ = {Mon、2018 年 8 月 13 日 16:48:22 +0200}、biburl = {https://dblp.org/rec/bib/journals/corr/Han17}、bibsource = {dblp コンピューター科学参考文献、https://dblp.org} }
[主流の MT および NMT 評価のための LEPOR:] Marzouk, S. & Hansen-Schirra, S. 「他の MT アーキテクチャと比較したニューラル機械翻訳に対する制御言語の影響の評価」。機械翻訳ジャーナル (2019)。 https://doi.org/10.1007/s10590-019-09233-w
[WMT データからの最高のパフォーマンスのメタ評価における LEPOR:] WMT13 には hLEPOR と nLEPOR のパフォーマンスに関する詳細な統計分析があり、「スペイン語とスペイン語の個々の言語ペアの評価の両方において、最高の指標の 1 つとして実行された」ことが示されています。 -英語と 9 つの言語ペアの集合セット」、論文を参照 (セグメントレベルの機械翻訳メトリクスの正確な評価) 「https://www.aclweb.org/anthology/N15-1124」Graham et al. 2015 NAACL(https://github.com/ygraham/segment-mteval)
[検索評価のための LEPOR:] Liu et al.会話型検索評価指標のメタ評価 (2021) https://arxiv.org/pdf/2104.13453.pdf 情報システムに関する ACM トランザクション
[LEPOR fo NLG 評価:] NLG に新しい評価指標が必要な理由。 Jekaterina Novikova 他著、2017emnlp。 https://www.aclweb.org/anthology/D17-1238/