Нейронный машинный перевод (NMT) в языковой паре непальский-английский. Вы можете попробовать это здесь.
Подготовленные нами параллельные данные можно найти здесь.
В каталоге data_cleaning
находятся сценарии, реализующие методы очистки, обсуждаемые в отчете.
Каталог translator
имеет рабочий интерфейс переводчика.
К концу 2019 года были проведены дополнительные работы по проекту, описанному здесь. Типовые контрольные точки, описанные в статье, находятся здесь. Данные обучения состоят из двух частей: а) реальные параллельные данные, б) синтетические параллельные данные.
По состоянию на февраль 2021 г. существует несколько проблем совместимости между файлами модели и более поздними версиями пакетов. Чтобы исправить это, используйте следующие версии пакетов: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
Sacrebleu-1.4.14 sacremoses-0.0.43
sentencepiece-0.1.91
.
Более свежие результаты можно найти в статье, указанной выше.
Оценки BLEU 7,6 и 4,3 (для контролируемых методов), о которых Гузман и др. сообщают в своей статье, входят в их набор devtest
. На самом деле они выпускают еще два набора: набор проверки, называемый набором dev
, и недавно выпущенный (октябрь 2019 г.) набор test
. В отчете, указанном выше, мы сообщаем только оценки набора dev
. Мы воспроизводим их модель, используя их реализацию для ее оценки. Здесь мы сообщаем оценки как для наборов dev
, так и devtest
.
dev
Модели | Размер корпуса | НЕ-ЭН | EN-NE |
---|---|---|---|
Гусман и др. (2019) | 564 тыс. | 5.24 | 2,98 |
Эта работа | 150 тыс. | 12.26 | 6.0 |
devtest
Модели | НЕ-ЭН | EN-NE |
---|---|---|
Гусман и др. (2019) | 7,6 | 4.3 |
Эта работа | 14.51 | 6,58 |
Результаты devtest
получены для моделей, в которых используется размер словаря 2500.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq используется для обучения, предмет предложения используется для изучения BPE в корпусе, сакремосы — для обработки английского текста, сакреблеу — для оценки моделей, flask — для интерфейса. Для обработки непальского текста мы используем Индийскую библиотеку НЛП.
Все библиотеки можно установить с помощью pip
.
Чтобы иметь возможность запускать интерфейс переводчика, библиотеку Indic NLP необходимо клонировать в translator/app/modules/
.
Существуют и другие библиотеки, такие как python-docx
и lxml
используемые сценариями очистки.
После обучения модели с использованием реализации Transformer fairseq скопируйте файл контрольной точки в папку translator/app/models/
и переименуйте его в en-ne.pt
или ne-en.pt
в зависимости от направления трансляции файла контрольной точки. Файлы контрольных точек, реализующие результаты в отчете, доступны здесь. Скопируйте файлы .pt
в translator/app/models
.
После того, как требования и модели созданы, запустите python app/app.py
из каталога translator
.
Подробную информацию о самом обучении можно получить из репозитория fairseq или документации. GitHub FLORES также полезен.
Тип | Предложение |
---|---|
Источник | Он Хейли, и Кингссон Сэнсэй. Он Нэнсон и Джон Джонс. Дэвид Хейджон थाले । |
Ссылка | Большие склады начали хранить на складах обувь, изготовленную многими мелкими производителями из этого района. |
Система | На крупных складах стала храниться обувь мелких производителей этого района. |
Тип | Предложение |
---|---|
Источник | Уиллоу Лоусону Уинстону, Нью-Йорк В фильме "Лифт Уиллис" Кэтрин Бэллинг Л. |
Ссылка | Технические писатели также пишут различные процедуры для делового, профессионального или домашнего использования. |
Система | Технические авторы также пишут о различных процедурах для коммерческого, профессионального или домашнего использования. |
Тип | Предложение |
---|---|
Источник | Язык Обамы изощрен, Путин говорит прямо и предпочитает использовать пунктуацию и статистику, но оба обладают одинаковой способностью завоевывать сердце аудитории. |
Ссылка | Он играл в фильме "Персонаж" и , Джон Джонс. Он и его отец Билли Блин Роналду, и его сын Кейнс. Он и Сонсон Кейнс छ । |
Система | Он играл в фильме "Персонаж" и , Дэниел Пэт. Рэйчел Уин и Уинстон Уинстон Он был Джоном Джонсом, и его сыном Мэнсоном. Джон и Кейси छ । |
Тип | Предложение |
---|---|
Источник | Литти чоха готовится путем замешивания в тесто гречневой муки, смешанной с различными специями, и поджаривания на огне, а подается с пастой из пряностей. |
Ссылка | Людмила Келли - Лил Джонс в фильме "Санкт-Петербург" Он играет с Сэнсэем Беннеттом, Кейнсом Сейном. पस्किइन्छ । |
Система | Лил и Уилсон Миссисипи Блин. Хэл Мейсон и Пьер Джонс и Уилсон. Дэниел Сэнсэй и Мэй Тайсон Сэнсэй Уинстон. |
Если вы используете какую-либо часть этого проекта в своей работе, пожалуйста, дайте ссылку на эту статью.
Для завершения шестого семестра по программе «Информатика» в Университете Катманду. июль 2019.