타밀어는 전 세계 8 천만 명이 사용됩니다. 타밀어와 영어 사이의 번역은 타밀어 스크립트에 대한 이해를 돕는 데 큰 영향을 미치며, 그렇지 않으면 지루하고 비용이 많이 들고 시간이 많이 걸리는 프로세스입니다. 따라서 타밀어에서 영어 번역을 수행하기 위해 자동화 된 시스템을 개발하면 인간의 시간과 노력이 절약 될 수 있습니다. 우리는 타밀어를 영어로 번역하기 위해 인코더 디코더를 기반으로 두 가지 다른 아키텍처를 사용한 표준 교육, 평가 및 보고서 결과 실험을위한 새로운 고품질 코퍼스를 공개적으로 발표합니다. 우리는 또한 사전 훈련 된 단어 임베딩을 실험하고 하이퍼 파라미터를 조정하여이를 개선하려고 노력했습니다. Google-Translator는 또한 Tamil to English 및 그 반대를 제공하지만, 새로운 데이터 세트와 함께 구현 된 아키텍처는 7.5 BLEU 점수의 마진으로 Google 번역기보다 훨씬 성능이 우수했습니다. 또한, 우리의 제안 된 모델은 어휘 및 다국적 문제를 더 많이 해결합니다.
이 링크를 사용하여 논문을 다운로드하십시오
연구 논문에서 논의 된대로 우리의 숙련 된 모델은 다음과 같습니다.
실험에서 우리는 236,427 개의 평행 한 영어 - 타밀 문장을 사용했으며, 더 많은 문장과 데이터 세트에 추가했습니다. 최종 데이터 세트는 6 개의 영어 <-> 타밀어 병렬 번역 파일로 나뉘어 배포 할 수 있습니다. 데이터 세트 폴더를 확인하십시오. 최신 훈련 된 모델 및 기타 언어를 테스트하려면 Translateme Network를 방문하십시오.
여전히 문제에 직면해도 저자에게 연락하십시오.
타밀-영어 번역에 대한 모든 평가 된 방법론은 두 아키텍처에 대해 동일한 데이터 세트를 사용하여 수행되었습니다. 결과를 Google Translator와 비교했습니다. Transformer Translator는 제안 된 Tamil Translator와 Google Translator를 능가하는데, 이는 기계 번역을위한 가장 잘보고 된 모델로 알려져 있습니다. 타밀어 번역기를 실험하는 동안, 미리 훈련 된 임베드가 코퍼스에서 훈련 된 것보다 더 나은 성능을 발휘하는 것이 분명해졌으며, 따라서 변압기 번역기의 경우 미리 훈련 된 임베딩으로 만 테스트되었습니다.
BLEU 점수 평가와는 별도로, 인간 평가는 3 명의 타밀 학자에 의해 수행되었으며, 다음 등급 체계를 사용하여 서로 무작위로 선택된 100 번의 번역을 주어주었습니다.
최종 점수 사용자 등급은 각 모델에 대한 학자들이 제공 한 모든 등급의 평균으로 계산되며, 아래 표에 나와 있습니다.
모델 아키텍처 | 블루 | 사용자 등급 |
---|---|---|
1. Google 번역기 | 8.6 | 2.6 |
2. 타밀어 번역기 | 21.6 | 14.6 |
3. 타밀어 번역기 + 사전 배치 | 14.9 | 3.1 |
4. 변압기 번역기 + 사전 훈련 된 임베딩 | 16.1 | 3.8 |
당사의 데이터 세트 나 논문의 다른 부분을 사용하는 경우 사용을 인용하는 것을 잊지 마십시오.
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}