A língua tâmil é falada por 80 milhões de pessoas em todo o mundo. A tradução entre tâmil e inglês leva a um impacto significativo, ajudando no entendimento dos scripts tâmil, que de outra forma seriam um processo tedioso, caro e demorado. Assim, o desenvolvimento de um sistema automatizado para realizar a tradução tâmil para o inglês economizaria tempo e esforço humano. Liberemos publicamente um novo corpus de alta qualidade para treinamento, avaliação e relatórios de resultados padrão com duas arquiteturas diferentes com base no codificador-decidido para traduzir o tâmil para o inglês. Tentamos ainda melhorá-lo, experimentando incorporações de palavras pré-treinadas e hiperparâmetros de ajuste. Embora o Google-Translator também forneça tâmil para o inglês e vice-versa, nossas arquiteturas implementadas, juntamente com o novo conjunto de dados, superaram completamente o Translator do Google com uma margem de 7,5 bleu. Além disso, nosso modelo proposto resolve os problemas de vocabulário e polissemia em maior medida.
Sinta -se à vontade para baixar nosso artigo usando este link
Aqui estão nossos modelos treinados, conforme discutido no trabalho de pesquisa: link
Em nossa experimentação, usamos 236.427 frases em inglês paralelo - Tamil, adicionamos mais frases e ao conjunto de dados. O conjunto de dados final é dividido em seis arquivos traduzidos em inglês <-> parallelly para facilitar a distribuição, verifique a pasta do conjunto de dados. Se você deseja testar nosso mais recente modelo treinado e outros idiomas que abordamos, visite a Translateme Network
Se você ainda enfrentar um problema, não hesite em entrar em contato com os autores:
Todas as metodologias avaliadas para traduções tâmil-inglês foram realizadas usando o mesmo conjunto de dados para ambas as arquiteturas. Comparamos nossos resultados com o Google Translator. O tradutor do transformador supera o tradutor tâmil proposto e o Translator do Google, que é conhecido por ser o modelo mais bem relatado para tradução para a máquina. Ao experimentar o Tamil Translator, ficou claro que as incorporações pré-treinadas com desempenho melhor do que treinado do corpus, portanto, para o Transformer Translator, testadas apenas com incorporações pré-treinadas.
Além da avaliação do escore Bleu, a avaliação humana foi realizada por 3 estudiosos tâmeis, dados 100 tradução escolhida aleatoriamente, usando o seguinte esquema de classificação:
As pontuações finais da classificação do usuário são calculadas como uma média de todas as classificações dadas pelos estudiosos a cada modelo, que é mostrado na tabela abaixo.
Arquitetura de modelo | Bleu | Classificação do usuário |
---|---|---|
1. Google Translator | 8.6 | 2.6 |
2. TAMIL TRADURADOR | 21.6 | 14.6 |
3. Tradutor tâmil + incorporação pré -traida | 14.9 | 3.1 |
4. Tradutor de transformador + incorporação pré-treinada | 16.1 | 3.8 |
Se você usar nosso conjunto de dados ou qualquer outra parte do artigo, não se esqueça de nos citar usando
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}