タミル語は、世界中の8000万人によって話されています。タミル語と英語の間の翻訳は、タミル語の脚本の理解を支援することで大きな影響を与えます。そうでなければ、退屈で費用がかかり、時間のかかるプロセスです。したがって、タミル語から英語翻訳を実行するための自動化されたシステムを開発することで、人間の時間と労力を節約できます。標準のトレーニング、評価、およびレポートの結果実験を、エンコーダデコーダーに基づいて2つの異なるアーキテクチャを使用して、タミル語を英語に翻訳するための新しい高品質のコーパスを公開しています。さらに、事前に訓練された単語の埋め込みを実験し、ハイパーパラメーターを調整することにより、改善しようとしました。 Google翻訳者も英語にタミル語を提供し、その逆も同様ですが、実装されたアーキテクチャは、新しいデータセットとともに、7.5 BLUスコアのマージンでGoogle翻訳者を完全に上回りました。さらに、提案されているモデルは、語彙や多重の問題から大幅に解決します。
このリンクを使用して、お気軽に私たちの論文をダウンロードしてください
研究論文で説明したように、ここにトレーニングされたモデルがあります:リンク
実験では、236,427の並行英語 - タミル文の文章を使用しました。さらに、より多くの文章を追加し、データセットに追加します。最終的なデータセットは、配布を容易にするために、6つの英語< - > Tamil並列翻訳ファイルに分割されています。データセットフォルダーを確認してください。最新の訓練されたモデルや私たちが扱った他の言語をテストしたい場合は、Translateme Networkにアクセスしてください
それでも問題に直面している場合は、著者にお気軽にお問い合わせください。
タミルから英語への翻訳の評価されたすべての方法論は、両方のアーキテクチャに対して同じデータセットを使用して行われました。結果をGoogle翻訳者と比較しました。トランス翻訳者は、提案されたタミル語翻訳者とGoogle翻訳者よりも優れています。これは、機械翻訳に最も報告されたモデルであることが知られています。タミル語の翻訳者を試している間、コーパスから訓練されたよりも優れたパフォーマンスを発揮する事前に訓練された埋め込み、したがってトランストランスレーターの場合、事前に訓練された埋め込みでのみテストされていることが明らかになりました。
BLEUスコアの評価とは別に、3人のタミル語学者によって人間の評価が行われ、次の評価スキームを使用して、互いにランダムに選択された100の翻訳が与えられました。
最終スコアユーザー評価は、各モデルに学者によって与えられたすべての評価の平均として計算されます。これは、下の表に示されています。
モデルアーキテクチャ | ブルー | ユーザー評価 |
---|---|---|
1。Google翻訳者 | 8.6 | 2.6 |
2。タミル語翻訳者 | 21.6 | 14.6 |
3。タミル翻訳者 +前処理された埋め込み | 14.9 | 3.1 |
4。トランストランスレーター +事前に訓練された埋め込み | 16.1 | 3.8 |
データセットまたは論文の他の部分を使用している場合は、使用して私たちを引用することを忘れないでください
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}