Die tamilische Sprache wird von 80 Millionen Menschen auf der ganzen Welt gesprochen. Die Übersetzung zwischen Tamil und Englisch führt zu einer bedeutenden Auswirkung, indem es beim Verständnis tamilischer Skripte hilft, die ansonsten ein mühsamer, kostspieliger und zeitaufwändiger Prozess wäre. Die Entwicklung eines automatisierten Systems zur Durchführung von Tamilen bis englischer Übersetzung würde die menschliche Zeit und Mühe retten. Wir veröffentlichen öffentlich ein neues hochwertiges Korpus für Standardtrainings-, Bewertungs- und Ergebnisseexperimente mit zwei verschiedenen Architekturen, die auf Encoder-Decoder basieren, um Tamil in Englisch zu übersetzen. Wir haben ferner versucht, es zu verbessern, indem wir mit vorgebildeten Wort-Einbettungen und Tuning-Hyperparametern experimentierten. Obwohl Google-Translator auch Englisch und umgekehrt Tamilen zur Verfügung stellt, übertraf unsere implementierten Architekturen zusammen mit dem neuen Datensatz den Google-Übersetzer vollständig mit einem Rand von 7,5 Bleu-Score. Darüber hinaus löst unser vorgeschlagenes Modell in größerem Maße das Vokabular- und Polysemieprobleme.
Fühlen Sie sich frei, unser Papier mit diesem Link herunterzuladen
Hier sind unsere ausgebildeten Modelle, wie in Forschungsarbeit erläutert: Link
In unserem Experimentieren haben wir 236.427 parallele Englisch - Tamilische Sätze verwendet, weiterhin weitere Sätze und dem Datensatz. Der endgültige Datensatz ist in sechs englische <--> tamilische parallelly-übersetzte Dateien zur einfachen Verteilung unterteilt. Überprüfen Sie bitte den Datensatzordner. Wenn Sie unser neuestes geschultes Modell und andere von uns behandelte Sprachen testen möchten, besuchen Sie das Translateme -Netzwerk bitte
Wenn Sie noch vor einem Problem konfrontiert sind, können Sie sich gerne an die Autoren wenden:
Alle bewerteten Methoden für Tamil-englische Übersetzungen wurden mit demselben Datensatz für beide Architekturen durchgeführt. Wir haben unsere Ergebnisse mit Google Translator verglichen. Der Transformatorübersetzer übertrifft den vorgeschlagenen Tamilenübersetzer und den Google-Übersetzer, von dem bekannt ist, dass es sich um das am besten gemeldete Modell für die maschinelle Übersetzung handelt. Während des Experimentierens mit dem tamilischen Übersetzer wurde klar, dass vorgebreitete Einbettungen, die besser abschneiden als aus Corpus, und daher für Transformatorübersetzer, nur mit vorgeborenen Einbettungen getestet wurden.
Neben der Bewertung der BLEU -Score wurde die menschliche Bewertung von 3 tamilischen Gelehrten durchgeführt, die 100 zufällig ausgewählte Translation voneinander unter Verwendung des folgenden Bewertungsschemas verzeichneten:
Die endgültige Bewertung der Ergebnisse wird als Durchschnitt aller von Gelehrten für jedes Modell angegebenen Bewertungen berechnet, was in der unteren Tabelle angegeben ist.
Modellarchitektur | Bleu | Benutzerbewertung |
---|---|---|
1. Google Übersetzer | 8.6 | 2.6 |
2. Tamilen Übersetzer | 21.6 | 14.6 |
3. Tamilen Übersetzer + vorbereitete Einbettungen | 14.9 | 3.1 |
V. | 16.1 | 3.8 |
Wenn Sie unseren Datensatz oder einen anderen Teil des Papiers verwenden, vergessen Sie nicht, uns zu zitieren
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}