LEPOR: Metrik Evaluasi Terjemahan Mesin Otomatis dengan parameter yang dapat disesuaikan dan faktor yang ditambah
Untuk kinerja yang lebih baik, pengaturan parameter hLEPOR pada situasi bahasa (atau pasangan bahasa) yang berbeda tersedia di Tabel 1 (nilai parameter melalui bahasa) makalah WMT13 https://aclanthology.org/W13-2253.pdf Parameter disetel secara manual menggunakan set validasi bahasa yang sesuai. Untuk penyetelan parameter otomatis, kami memiliki cushLEPOR yang sekarang tersedia di https://github.com/poethan/cushLEPOR
contoh perintah cmd: Perl the-evaluation-code.pl > score-file.txt
Terima kasih kepada Paolo Dr. (Awsome) Bolzoni, Ini menghasilkan skor tingkat kalimat dan skor tingkat sistem sebagai format pengiriman metrik WMT. misalnya
http://www.statmt.org/wmt18/metrics-task.html
"NAMA METRIK, PASANGAN LANG, SET UJI, SISTEM, NOMOR SEGMEN, SKOR SEGMEN, ENSEMBLE, TERSEDIA"
"NAMA METRIK, PASANGAN LANG, SET UJI, SISTEM, SISTEM, SKOR TINGKAT SISTEM, ENSEMBLE, TERSEDIA"
Untuk semua file tentang hLEPOR_baseline di WMT2019, misalnya jalankan kembali baseline hLEPOR untuk perbandingan atau peningkatan, dll. Anda dapat menemukan semuanya di folder drive ini: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
Kami menyebutnya baseline di WMT2019 karena kami tidak menyesuaikan parameter dalam metrik dan juga tidak menggunakan fitur linguistik yang kami gunakan di WMT2013. Sebagai gantinya, hanya menggunakan serangkaian parameter default dan hanya mengukur skor berdasarkan keluaran sistem dan file referensi, tidak ada sumber daya eksternal yang digunakan.
[WMT2013] Metrik LEPOR menghasilkan skor korelasi Pearson tingkat sistem tertinggi (0,86) dengan penilaian manusia, pada rata-rata lima pasangan bahasa dari bahasa Inggris ke bahasa lain [en-fr en-de en-es en-cs en-ru (juga terbaik skor di en-cs en-ru)] di WMT2013. https://www.aclweb.org/anthology/W13-2253 (Tabel 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (Tabel 3)
Kutipan:
PENYIMPANAN:
@inproceedings{han2012lepor, title={LEPOR: Metrik Evaluasi yang Kuat untuk Terjemahan Mesin dengan Faktor Augmented}, author={Han, Aaron L.-F. dan Wong, Derek F. dan Chao, Lidia S.}, booktitle={Prosiding Konferensi Internasional ke-24 tentang Linguistik Komputasi (COLING 2012)}, halaman={441-450}, tahun={2012}, organisasi={Asosiasi untuk Linguistik Komputasi} }
KTT MT:
@inproceedings{han2013bahasa, title={Model Bebas Bahasa untuk Evaluasi Terjemahan Mesin dengan Faktor yang Diperkuat}, author={Han, Aaron L.-F. dan Wong, Derek F. dan Chao, Lidia S. dan He, Liangye dan Lu, Yi dan Xing, Junwen dan Zeng, Xiaodong}, booktitle={Machine Translation Summit XIV}, halaman={215--222}, tahun= {2013}, organisasi={Asosiasi Internasional untuk Terjemahan Mesin} }
WMT:
@inproceedings{W13-2253, title = "Deskripsi Sistem Evaluasi Terjemahan Mesin Merdu dalam Tugas {WMT}13 Metrik", author = "Han, Aaron Li-Feng dan Wong, Derek F. dan Chao, Lidia S. dan Lu , Yi dan He, Liangye dan Wang, Yiming dan Zhou, Jiaji", booktitle = "Prosiding Lokakarya Kedelapan Penerjemahan Mesin Statistik", bulan = Agustus, tahun = "2013", alamat = "Sofia, Bulgaria", penerbit = "Asosiasi Linguistik Komputasi", url = "https://www.aclweb.org/anthology/W13-2253", halaman = "414--421", }
Msc. tesis:
@article{DBLP:journals/corr/Han17, penulis = {Lifeng Han}, title = {{LEPOR:} Metrik Evaluasi Terjemahan Mesin Augmented}, jurnal = {CoRR}, volume = {abs/1703.08748}, tahun = { 2017}, url = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, stempel waktu = {Senin, 13 Agustus 2018 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {bibliografi ilmu komputer dblp, https://dblp.org} }
[LEPOR untuk evaluasi MT dan NMT arus utama:] Marzouk, S. & Hansen-Schirra, S. 'Evaluasi dampak bahasa terkontrol pada terjemahan mesin saraf dibandingkan dengan arsitektur MT lainnya'. Jurnal Terjemahan Mesin (2019). https://doi.org/10.1007/s10590-019-09233-w
[LEPOR dalam meta-evaluasi berkinerja terbaik dari data WMT:] Ada analisis statistik mendalam tentang kinerja hLEPOR dan nLEPOR di WMT13, yang menunjukkan kinerjanya sebagai salah satu metrik terbaik "dalam penilaian pasangan bahasa individual untuk bahasa Spanyol-ke- -Bahasa Inggris dan kumpulan gabungan 9 pasangan bahasa.", lihat makalah (Evaluasi Akurat Metrik Terjemahan Mesin Tingkat Segmen) "https://www.aclweb.org/anthology/N15-1124" Graham dkk. NAACL 2015(https://github.com/ygraham/segment-mteval)
[LEPOR untuk evaluasi Penelusuran:] Liu dkk. Meta-evaluasi Metrik Evaluasi Pencarian Percakapan, (2021) https://arxiv.org/pdf/2104.13453.pdf Transaksi ACM pada Sistem Informasi
[LEPOR untuk evaluasi NLG:] Mengapa Kita Membutuhkan Metrik Evaluasi Baru untuk NLG. oleh Jekaterina Novikova dkk 2017emnlp. https://www.aclweb.org/anthology/D17-1238/