LEPOR: метрика оценки автоматического машинного перевода с настраиваемыми параметрами и дополнительными коэффициентами
Для повышения производительности настройка параметров hLEPOR для различных языковых ситуаций (или языковых пар) доступна в Таблице 1 (значения параметров в зависимости от языка) документа WMT13 https://aclanthology.org/W13-2253.pdf. Параметры были настроены вручную с использованием набор проверки соответствующего языка. Для автоматической настройки параметров у нас есть cushLEPOR, доступный по адресу https://github.com/poetan/cushLEPOR.
Пример команды cmd: Perl the-evaluation-code.pl > счет-файл.txt
Благодаря Паоло доктору (Awsome) Больцони, он генерирует оценку на уровне предложения и оценку на уровне системы в формате представления показателей WMT. например
http://www.statmt.org/wmt18/metrics-task.html
«ИМЯ МЕТРИКИ, ЯЗЫКОВАЯ ПАРА, ТЕСТОВЫЙ НАБОР, СИСТЕМА, НОМЕР СЕГМЕНТА, ОЦЕНКА СЕГМЕНТА, АНСАМБЛЬ, ДОСТУПНО»
«ИМЯ МЕТРИКИ, ЯЗЫКОВАЯ ПАРА, ТЕСТОВЫЙ НАБОР, СИСТЕМА, СИСТЕМА, ОЦЕНКА УРОВНЯ СИСТЕМЫ, АНСАМБЛЬ, ДОСТУПНО»
Все файлы, связанные с hLEPOR_baseline в WMT2019, например повторный запуск базового уровня hLEPOR для сравнения или улучшения и т. д., вы можете найти в этой папке на диске: (https://drive.google.com/open?id=1v6VR4r5U9tH-0jFzAtxTybxCJWUeCWdn)
Мы называем это базовым уровнем в WMT2019, потому что мы не настраивали параметры метрики и не использовали лингвистические функции, которые мы использовали в WMT2013. Вместо этого просто использовался набор параметров по умолчанию и измерялись оценки только в соответствии с выходными данными системы и справочными файлами, без использования внешних ресурсов.
[WMT2013] Метрики LEPOR продемонстрировали самый высокий показатель корреляции Пирсона на системном уровне (0,86) с человеческим суждением в среднем для пяти языковых пар от английского к другому [en-fr en-de en-es en-cs en-ru (также лучший счет на en-cs en-ru)] в WMT2013. https://www.aclweb.org/anthology/W13-2253 (таблица 3) https://www.statmt.org/wmt13/pdf/WMT02.pdf (таблица 3)
Цитата:
ОХЛАЖДЕНИЕ:
@inproceedings{han2012lepor, title={LEPOR: надежная метрика оценки машинного перевода с дополнительными факторами}, автор={Хан, Аарон Л.-Ф. и Вонг, Дерек Ф. и Чао, Лидия С.}, booktitle={Труды 24-й Международной конференции по компьютерной лингвистике (COLING 2012)}, страницы={441-450}, год={2012}, организация={Ассоциация по компьютерной лингвистике} }
САММИТ МТ:
@inproceedings{han2013language, title={Независимая от языка модель оценки машинного перевода с усиленными факторами}, автор={Хан, Аарон Л.-Ф. и Вонг, Дерек Ф. и Чао, Лидия С. и Хэ, Лянье и Лу, И и Син, Цзюньвэнь и Цзэн, Сяодун}, booktitle={Саммит машинного перевода XIV}, страницы={215--222}, год= {2013}, организация={Международная ассоциация машинного перевода} }
ВМТ:
@inproceedings{W13-2253, title = "Описание настраиваемых систем оценки машинного перевода в задаче {WMT}13 Metrics", автор = "Хан, Аарон Ли-Фенг и Вонг, Дерек Ф. и Чао, Лидия С. и Лу , И и Хэ, Лянъе и Ван, Имин и Чжоу, Цзяцзи", booktitle = "Материалы восьмого семинара по Статистический машинный перевод", месяц = август, год = "2013", адрес = "София, Болгария", издатель = "Ассоциация компьютерной лингвистики", url = "https://www.aclweb.org/anthology/W13-2253 ", страницы = "414--421", }
магистр наук диссертация:
@article{DBLP:journals/corr/Han17, автор = {Лифэн Хан}, title = {{LEPOR:} Расширенная метрика оценки машинного перевода}, журнал = {CoRR}, объём = {abs/1703.08748}, год = { 2017}, URL = {http://arxiv.org/abs/1703.08748}, archivePrefix = {arXiv}, eprint = {1703.08748}, временная метка = {пн, 13 августа 2018 г. 16:48:22 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/Han17}, bibsource = {библиография dblp по информатике, https://dblp.org} }
[LEPOR для основной оценки MT и NMT:] Марзук, С. и Хансен-Ширра, С. «Оценка влияния контролируемого языка на нейронный машинный перевод по сравнению с другими архитектурами MT». Журнал машинного перевода (2019). https://doi.org/10.1007/s10590-019-09233-w
[LEPOR в самой эффективной мета-оценке на основе данных WMT:] Существует глубокий статистический анализ производительности hLEPOR и nLEPOR в WMT13, который показывает, что он работает как один из лучших показателей «как при оценке отдельных языковых пар для -Английский и агрегированный набор из 9 языковых пар.», см. документ (Точная оценка показателей машинного перевода на уровне сегмента). «https://www.aclweb.org/anthology/N15-1124» Грэм и др. NAACL, 2015 г. (https://github.com/ygraham/segment-mteval)
[LEPOR для оценки поиска:] Liu et al. Метаоценка показателей оценки диалогового поиска, (2021) https://arxiv.org/pdf/2104.13453.pdf Транзакции ACM в информационных системах
[LEPOR для оценки NLG:] Почему нам нужны новые показатели оценки для NLG. Екатерина Новикова и др. 2017emnlp. https://www.aclweb.org/anthology/D17-1238/