La langue tamoule est parlée par 80 millions de personnes dans le monde. La traduction entre le tamoul et l'anglais conduit à un impact significatif en aidant à comprendre les scripts tamouls, qui autrement serait un processus fastidieux, coûteux et long. Ainsi, le développement d'un système automatisé pour effectuer la traduction tamoule à l'anglais permettra de gagner du temps et des efforts humains. Nous publions publiquement un nouveau corpus de haute qualité pour la formation standard, l'évaluation et les expériences sur les résultats de la formation standard avec deux architectures différentes basées sur le coder-décodeur pour traduire le tamoul en anglais. Nous avons en outre essayé de l'améliorer en expérimentant des intérêts de mots pré-entraînés et des hyperparamètres de réglage. Bien que Google-Translateur fournit également le tamoul à l'anglais et vice versa, nos architectures implémentées, ainsi que le nouvel ensemble de données, ont complètement surpassé le traducteur Google avec une marge de 7,5 score BLEU. De plus, notre modèle proposé résout jusqu'à des problèmes de vocabulaire et de polysémie jusqu'à une plus grande mesure.
N'hésitez pas à télécharger notre article en utilisant ce lien
Voici nos modèles qualifiés, comme discuté dans le document de recherche: Lien
Dans notre expérimentation, nous avons utilisé 236 427 phrases parallèles en anglais - tamoul, nous ajoutons en outre plus de phrases et à l'ensemble de données. L'ensemble de données final est divisé en six fichiers traduits en anglais <-> Tamil Parallylly pour faciliter la distribution, veuillez vérifier le dossier de l'ensemble de données. Si vous souhaitez tester notre dernier modèle formé et d'autres langues que nous avons couvertes, veuillez visiter Translateme Network
Si vous êtes toujours confronté à un problème, n'hésitez pas à contacter les auteurs:
Toutes les méthodologies évaluées pour les traductions tamoul-anglais ont été effectuées en utilisant le même ensemble de données pour les deux architectures. Nous avons comparé nos résultats avec Google Traductor. Le traducteur transformateur surpasse le traducteur tamoul proposé et le traducteur de Google, qui est connu pour être le modèle le mieux déclaré pour la traduction machine. Tout en expérimentant le traducteur tamoul, il est devenu clair que les intégres pré-entraînés fonctionnent mieux que formés à partir de corpus, donc pour le traducteur du transformateur, seulement testé avec des incorporations pré-formées.
Outre l'évaluation du score BLEU, l'évaluation humaine a été effectuée par 3 chercheurs en tamoul, étant donné 100 traductions choisies au hasard les unes des autres, en utilisant le schéma de notation suivant:
Les scores finaux La notation de l'utilisateur est calculé en moyenne de toutes les notes données par les chercheurs à chaque modèle, qui est indiqué dans le tableau ci-dessous.
Architecture modèle | Bleu | Note utilisateur |
---|---|---|
1. Traducteur Google | 8.6 | 2.6 |
2. Traducteur tamoul | 21.6 | 14.6 |
3. Traducteur tamoul + intégres pré-entraînés | 14.9 | 3.1 |
4. Transformateur Traductor + intégres pré-formés | 16.1 | 3.8 |
Si vous utilisez notre ensemble de données ou toute autre partie du papier, n'oubliez pas de nous citer en utilisant
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}