泰米爾語由全球8000萬人說。泰米爾語和英語之間的翻譯通過幫助理解泰米爾語腳本會帶來重大影響,否則這將是一個乏味,昂貴且耗時的過程。因此,開發一個自動化系統以執行泰米爾語對英語翻譯,可以節省人類的時間和精力。我們公開發布了一個新的高質量培訓,用於標準培訓,評估和報告結果實驗,並使用基於編碼器碼頭的兩個不同體系結構進行了結果實驗,以將泰米爾語翻譯成英語。我們進一步試圖通過嘗試預先訓練的單詞嵌入和調整超標儀來改進它。儘管Google-Translator還提供了泰米爾語,反之亦然,但我們實施的體系結構以及新的數據集以7.5 bleu得分的利潤率完全優於Google Translator。此外,我們提出的模型在更大程度上解決了詞彙和多義問題。
隨時使用此鏈接下載我們的論文
如研究論文所述,這是我們訓練有素的模型:鏈接
在我們的實驗中,我們使用了236,427個平行英語 - 泰米爾語句子,此外,我們在數據集中添加了更多句子。最終數據集分為六個英語<->泰米爾語偏見的文件,以易於分發,請檢查數據集文件夾。如果您想測試我們涵蓋的最新訓練的模型和其他語言,請訪問Translateme網絡
如果您仍然面臨問題,請隨時與作者聯繫:
使用相同的數據集對兩個體系結構進行了所有評估的泰米爾至英語翻譯方法。我們將結果與Google Translator進行了比較。變壓器翻譯器的表現優於擬議的泰米爾轉化器和Google Translator,這是機器翻譯的最佳報告模型。在嘗試泰米爾語翻譯器的同時,很明顯,預訓練的嵌入性能要比corpus訓練的更好,因此對於變壓器翻譯器,僅通過預訓練的嵌入進行了測試。
除了評估BLEU得分外,使用以下評級方案,由3個泰米爾學者進行了人類評估,彼此之間進行了100個隨機選擇的翻譯:
最終分數用戶評分計算為學者對每個模型給出的所有評分的平均值,如下表所示。
模型架構 | bleu | 用戶評級 |
---|---|---|
1。GoogleTranslator | 8.6 | 2.6 |
2。泰米爾譯者 | 21.6 | 14.6 |
3。泰米爾翻譯 +預讀的嵌入 | 14.9 | 3.1 |
4。變壓器翻譯器 +預訓練的嵌入 | 16.1 | 3.8 |
如果您使用我們的數據集或論文的任何其他部分,請不要忘記使用
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}