泰米尔语由全球8000万人说。泰米尔语和英语之间的翻译通过帮助理解泰米尔语脚本会带来重大影响,否则这将是一个乏味,昂贵且耗时的过程。因此,开发一个自动化系统以执行泰米尔语对英语翻译,可以节省人类的时间和精力。我们公开发布了一个新的高质量培训,用于标准培训,评估和报告结果实验,并使用基于编码器码头的两个不同体系结构进行了结果实验,以将泰米尔语翻译成英语。我们进一步试图通过尝试预先训练的单词嵌入和调整超标仪来改进它。尽管Google-Translator还提供了泰米尔语,反之亦然,但我们实施的体系结构以及新的数据集以7.5 bleu得分的利润率完全优于Google Translator。此外,我们提出的模型在更大程度上解决了词汇和多义问题。
随时使用此链接下载我们的论文
如研究论文所述,这是我们训练有素的模型:链接
在我们的实验中,我们使用了236,427个平行英语 - 泰米尔语句子,此外,我们在数据集中添加了更多句子。最终数据集分为六个英语<->泰米尔语偏见的文件,以易于分发,请检查数据集文件夹。如果您想测试我们涵盖的最新训练的模型和其他语言,请访问Translateme网络
如果您仍然面临问题,请随时与作者联系:
使用相同的数据集对两个体系结构进行了所有评估的泰米尔至英语翻译方法。我们将结果与Google Translator进行了比较。变压器翻译器的表现优于拟议的泰米尔转化器和Google Translator,这是机器翻译的最佳报告模型。在尝试泰米尔语翻译器的同时,很明显,预训练的嵌入性能要比corpus训练的更好,因此对于变压器翻译器,仅通过预训练的嵌入进行了测试。
除了评估BLEU得分外,使用以下评级方案,由3个泰米尔学者进行了人类评估,彼此之间进行了100个随机选择的翻译:
最终分数用户评分计算为学者对每个模型给出的所有评分的平均值,如下表所示。
模型架构 | bleu | 用户评级 |
---|---|---|
1。GoogleTranslator | 8.6 | 2.6 |
2。泰米尔译者 | 21.6 | 14.6 |
3。泰米尔翻译 +预读的嵌入 | 14.9 | 3.1 |
4。变压器翻译器 +预训练的嵌入 | 16.1 | 3.8 |
如果您使用我们的数据集或论文的任何其他部分,请不要忘记使用
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}