LEPOR: 조정 가능한 매개변수와 강화된 요소를 갖춘 자동 기계 번역 평가 지표
더 나은 성능을 위해 WMT13 논문 https://aclanthology.org/W13-2253.pdf의 표 1(언어를 통한 매개변수 값)에서 다양한 언어(또는 언어 쌍) 상황에 대한 hLEPOR 매개변수 설정을 사용할 수 있습니다. 매개변수는 다음을 사용하여 수동으로 조정되었습니다. 해당 언어의 검증 세트입니다. 매개변수 자동 조정을 위해 이제 https://github.com/poethan/cushLEPOR에서 cushLEPOR를 사용할 수 있습니다.
cmd 명령 예: Perl the-evaluation-code.pl > Score-file.txt
Paolo Dr. (Awsome) Bolzoni 덕분에 문장 수준 점수와 시스템 수준 점수를 WMT 지표 제출 형식으로 생성합니다. 예를 들어
http://www.statmt.org/wmt18/metrics-task.html
"메트릭 이름, LANG-PAIR, 테스트 세트, 시스템, 세그먼트 번호, 세그먼트 점수, 앙상블, 사용 가능"
"메트릭 이름, LANG-PAIR, 테스트 세트, 시스템, 시스템, 시스템 레벨 점수, 앙상블, 사용 가능"
WMT2019의 hLEPOR_baseline에 대한 모든 파일(예: 비교 또는 개선 등을 위해 hLEPOR 기준선 다시 실행)은 이 드라이브 폴더에서 모두 찾을 수 있습니다: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
메트릭의 매개변수를 조정하지 않았고 WMT2013에서 사용한 언어적 기능도 사용하지 않았기 때문에 WMT2019에서는 이를 기준선이라고 부릅니다. 대신, 기본 매개변수 세트를 사용하고 외부 리소스를 사용하지 않고 시스템 출력 및 참조 파일에 따라 점수만 측정했습니다.
[WMT2013] LEPOR 측정항목은 영어에서 기타 언어로의 5개 언어 쌍에서 인간 판단과 가장 높은 시스템 수준 Pearson 상관 점수(0.86)를 수행했습니다. [en-fr en-de en-es en-cs en-ru(또한 최고 en-cs en-ru 점수)] WMT2013에서. https://www.aclweb.org/anthology/W13-2253 (표 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (표 3)
소환:
콜링:
@inproceedings{han2012lepor, title={LEPOR: 증강 요소를 사용한 기계 번역에 대한 강력한 평가 지표}, 저자={Han, Aaron L.-F. and Wong, Derek F. and Chao, Lidia S.}, booktitle={제24차 전산언어학 국제회의 논문집(COLING 2012)}, 페이지={441-450}, 연도={2012}, 조직={협회 전산언어학을 위한} }
MT 서밋:
@inproceedings{han2013언어, title={강화 요소를 사용한 기계 번역 평가를 위한 언어 독립적 모델}, 저자={Han, Aaron L.-F. and Wong, Derek F. and Chao, Lidia S. and He, Liangye and Lu, Yi and Xing, Junwen and Zeng, Xiaodong}, booktitle={Machine Translation Summit XIV}, 페이지={215--222}, year= {2013}, 조직={국제기계번역협회} }
WMT:
@inproceedings{W13-2253, title = "{WMT}13 측정항목 작업의 조정 가능한 기계 번역 평가 시스템에 대한 설명", 작성자 = "Han, Aaron Li-Feng 및 Wong, Derek F. 및 Chao, Lidia S. 및 Lu , Yi and He, Liangye and Wang, Yiming and Zhou, Jiaji", booktitle = "통계 기계에 관한 제8차 워크숍 진행 번역", 월 = 8월, 연도 = "2013", 주소 = "불가리아 소피아", 게시자 = "전산 언어학 협회", url = "https://www.aclweb.org/anthology/W13-2253", 페이지 = "414--421", }
Msc. 명제:
@article{DBLP:journals/corr/Han17, 저자 = {Lifeng Han}, 제목 = {{LEPOR:} 증강 기계 번역 평가 지표}, 저널 = {CoRR}, 권 = {abs/1703.08748}, 연도 = { 2017}, URL = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, 타임스탬프 = {2018년 8월 13일 월요일 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {dblp 컴퓨터 과학 참고문헌, https://dblp.org} }
[주류 MT 및 NMT 평가를 위한 LEPOR:] Marzouk, S. & Hansen-Schirra, S. '다른 MT 아키텍처와 비교하여 신경 기계 번역에 대한 제어 언어의 영향 평가'. 기계 번역 저널(2019). https://doi.org/10.1007/s10590-019-09233-w
[WMT 데이터의 최고 성능 메타 평가에서 LEPOR:] WMT13의 hLEPOR 및 nLEPOR 성능에 대한 심층적인 통계 분석이 있는데, 이는 스페인어에 대한 개별 언어 쌍 평가 모두에서 "최고의 측정 항목 중 하나로 수행되었음을 보여줍니다." -영어 및 9개 언어 쌍의 집합.", 논문 참조(세그먼트 수준 기계 번역 지표의 정확한 평가) "https://www.aclweb.org/anthology/N15-1124" Graham et al. 2015 NAACL(https://github.com/ygraham/segment-mteval)
[검색 평가를 위한 LEPOR:] Liu et al. 대화 검색 평가 지표의 메타 평가, (2021) https://arxiv.org/pdf/2104.13453.pdf 정보 시스템의 ACM 거래
[NLG 평가에 대한 LEPOR:] NLG에 대한 새로운 평가 지표가 필요한 이유. Jekaterina Novikova 외 2017emnlp 작성. https://www.aclweb.org/anthology/D17-1238/