El idioma tamil es pronunciado por 80 millones de personas en todo el mundo. La traducción entre tamil e inglés conduce a un impacto significativo al ayudar en la comprensión de los guiones tamiles, que de lo contrario sería un proceso tedioso, costoso y que requiere mucho tiempo. Por lo tanto, desarrollar un sistema automatizado para realizar la traducción tamil al inglés ahorraría el tiempo y el esfuerzo humanos. Lanzamos públicamente un nuevo corpus de alta calidad para la capacitación estándar, evaluación e informamos experimentos de resultados con dos arquitecturas diferentes basadas en el codificador del codificador para traducir el tamil al inglés. Además, tratamos de mejorarlo experimentando con incrustaciones de palabras y hiperparametros de ajuste. Aunque Google-Translator también proporciona tamil al inglés y viceversa, nuestras arquitecturas implementadas, junto con el nuevo conjunto de datos, superaron por completo al traductor de Google con un margen de 7.5 BLEU. Además, nuestro modelo propuesto resuelve los problemas de vocabulario y polisemia en mayor medida.
Siéntase libre de descargar nuestro artículo usando este enlace
Aquí están nuestros modelos capacitados, como se discutió en el documento de investigación: Link
En nuestra experimentación utilizamos 236,427 ingleses paralelos: oraciones tamiles, además agregamos más oraciones y al conjunto de datos. El conjunto de datos final se divide en seis archivos traducidos en inglés Tamil Parallelly para facilitar la distribución, consulte la carpeta del conjunto de datos. Si desea probar nuestro último modelo capacitado y otros idiomas que cubrimos, visite Translateme Network
Si aún enfrenta un problema, no dude en contactar a los autores:
Todas las metodologías evaluadas para las traducciones de tamil a inglés se realizaron utilizando el mismo conjunto de datos para ambas arquitecturas. Comparamos nuestros resultados con el traductor de Google. El traductor de transformador supera al traductor tamil propuesto y al traductor de Google, que se sabe que es el modelo mejor informado para la traducción automática. Mientras experimentaba con el traductor tamil, quedó claro que los incrustaciones previamente entrenadas funcionaban mejor que los entrenados desde el corpus, por lo tanto, para el traductor de transformadores, solo probados con incrustaciones previamente capacitadas.
Además de la evaluación de la puntuación de BLU, la evaluación humana fue realizada por 3 académicos tamiles, administrados 100 traducciones elegidas al azar entre sí, utilizando el siguiente esquema de calificación:
Puntajes finales La calificación del usuario se calcula como un promedio de todas las calificaciones dadas por los académicos a cada modelo, que se muestra en la tabla a continuación.
Arquitectura modelo | Bleu | Calificación de usuario |
---|---|---|
1. Traductor de Google | 8.6 | 2.6 |
2. Traductor tamil | 21.6 | 14.6 |
3. Traductor tamil + incrustaciones previamente | 14.9 | 3.1 |
4. Transformador de traductor + incrustaciones previas al entrenamiento | 16.1 | 3.8 |
Si usa nuestro conjunto de datos o cualquier otra parte del documento, no olvide citarnos usando
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}