Bahasa Tamil digunakan oleh 80 juta orang di seluruh dunia. Terjemahan antara Tamil dan Inggris mengarah pada dampak yang signifikan dengan membantu dalam memahami skrip Tamil, yang sebaliknya akan menjadi proses yang membosankan, mahal, dan memakan waktu. Dengan demikian, mengembangkan sistem otomatis untuk melakukan terjemahan bahasa Tamil ke bahasa Inggris akan menghemat waktu dan upaya manusia. Kami secara terbuka merilis corpus berkualitas tinggi baru untuk pelatihan standar, evaluasi, dan melaporkan eksperimen hasil dengan dua arsitektur berbeda berdasarkan encoder-decoder untuk menerjemahkan bahasa Tamil ke bahasa Inggris. Kami selanjutnya mencoba memperbaikinya dengan bereksperimen dengan embedding kata yang sudah ada dan tuning hyperparameters. Meskipun Google-Translator juga menyediakan bahasa Tamil untuk bahasa Inggris dan sebaliknya, arsitektur kami yang diimplementasikan, bersama dengan dataset baru, sepenuhnya mengungguli Penerjemah Google dengan margin skor 7,5 Bleu. Selain itu, model yang kami usulkan memecahkan masalah kosa kata dan polisemia hingga tingkat yang lebih besar.
Jangan ragu untuk mengunduh makalah kami menggunakan tautan ini
Berikut adalah model terlatih kami, seperti yang dibahas dalam Makalah Penelitian: Tautan
Dalam eksperimen kami, kami menggunakan 236.427 kalimat bahasa Inggris paralel - Tamil, lebih lanjut kami menambahkan lebih banyak kalimat dan ke dataset. Dataset terakhir dibagi menjadi enam bahasa Inggris <--> Tamil Parallelly diterjemahkan file untuk kemudahan distribusi, silakan periksa folder dataset. Jika Anda ingin menguji model terlatih terbaru kami dan bahasa lain yang kami bahas, silakan kunjungi Translateme Network
Jika Anda masih menghadapi masalah, jangan ragu untuk menghubungi penulis:
Semua metodologi yang dievaluasi untuk terjemahan Tamil-to-English dilakukan dengan menggunakan dataset yang sama untuk kedua arsitektur. Kami membandingkan hasil kami dengan Google Translator. Transformer Translator mengungguli penerjemah Tamil yang diusulkan dan penerjemah Google, yang dikenal sebagai model yang dilaporkan terbaik untuk terjemahan mesin. Saat bereksperimen dengan penerjemah Tamil, menjadi jelas bahwa embeddings pra-terlatih berkinerja lebih baik daripada dilatih dari corpus, karenanya untuk translator transformator, hanya diuji dengan embeddings pra-terlatih.
Terlepas dari evaluasi skor Bleu, evaluasi manusia dilakukan oleh 3 sarjana Tamil, diberikan 100 terjemahan yang dipilih secara acak satu sama lain, menggunakan skema peringkat berikut:
Skor akhir peringkat pengguna dihitung sebagai rata -rata semua peringkat yang diberikan oleh para sarjana untuk setiap model, yang ditunjukkan pada tabel di bawah ini.
Arsitektur Model | Bleu | Peringkat pengguna |
---|---|---|
1. Penerjemah Google | 8.6 | 2.6 |
2. Penerjemah Tamil | 21.6 | 14.6 |
3. Penerjemah Tamil + Embeddings Pretrained | 14.9 | 3.1 |
4. Transformer Translator + Pra-Latih Embeddings | 16.1 | 3.8 |
Jika Anda menggunakan dataset kami atau bagian lain dari kertas ini, jangan lupa mengutip kami menggunakan
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}