На тамильском языке говорят 80 миллионов человек по всему миру. Перевод между тамильским и английским языком приводит к значительному воздействию, помогая в понимании тамильских сценариев, что в противном случае было бы утомительным, дорогостоящим и трудоемким процессом. Таким образом, разработка автоматизированной системы для выполнения тамильского на английский перевод сэкономит человеку время и усилия. Мы публично выпускаем новый высококачественный корпус для стандартного обучения, оценки и экспериментов с результатами с двумя различными архитектурами, основанными на кодере-декодере, чтобы перевести тамильский на английский язык. Мы также попытались улучшить его, экспериментируя с предварительно обученными встроениями слов и настройкой гиперпараметров. Хотя Google-Translator также предоставляет тамильский на английский язык и наоборот, наши реализованные архитектуры, наряду с новым набором данных, полностью превзошли переводчика Google со счетом 7,5 баллов. Более того, наша предложенная модель решает из словарного запаса и полисейства проблем в большей степени.
Не стесняйтесь скачать нашу статью, используя эту ссылку
Вот наши обученные модели, как обсуждалось в исследовательской статье: ссылка
В нашем экспериментах мы использовали 236 427 параллельных английских предложений - далее мы добавляем больше предложений и в набор данных. Окончательный набор данных разделен на шесть английских <--> Tamil Parallelly, переведенные файлы для облегчения распространения, проверьте папку набора данных. Если вы хотите проверить нашу последнюю обученную модель и другие языки, которые мы рассмотрели, посетите сеть Translateme
Если вам все еще сталкивается проблема, не стесняйтесь обращаться к авторам:
Все оцениваемые методологии для переводов тамильского на английский были выполнены с использованием одного и того же набора данных для обеих архитектур. Мы сравнили наши результаты с Google Translator. Переводчик трансформатора превосходит предложенный тамильский переводчик и переводчик Google, который, как известно, является наиболее известной моделью для машинного перевода. Во время экспериментов с тамильским переводчиком стало ясно, что предварительно обученные встраивания работают лучше, чем обучаемые из корпуса, следовательно, для трансформатора, переводчика, тестируемые только с предварительно обученными вставками.
Помимо оценки баллов BLEU, оценка человека была проведена 3 учеными -тамильским, с учетом 100 случайно выбранных переводов друг от друга с использованием следующей схемы рейтинга:
Окончательные оценки Пользовательский рейтинг рассчитывается как среднее из всех рейтингов, указанных учеными для каждой модели, которая показана в таблице ниже.
Модель архитектура | Блю | Пользовательский рейтинг |
---|---|---|
1. Google Translator | 8.6 | 2.6 |
2. тамильский переводчик | 21.6 | 14.6 |
3. Тамильский переводчик + предварительно проведенные встраиваемые встроения | 14.9 | 3.1 |
4. Переводчик трансформатора + предварительно обученные встраивания | 16.1 | 3.8 |
Если вы используете наш набор данных или любую другую часть бумаги, не забудьте процитировать нас, используя
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}