ภาษาทมิฬพูดโดยผู้คน 80 ล้านคนทั่วโลก การแปลระหว่างทมิฬและภาษาอังกฤษนำไปสู่ผลกระทบอย่างมีนัยสำคัญโดยช่วยในการทำความเข้าใจสคริปต์ทมิฬซึ่งมิฉะนั้นจะเป็นกระบวนการที่น่าเบื่อราคาแพงและใช้เวลานาน ดังนั้นการพัฒนาระบบอัตโนมัติเพื่อทำการแปลภาษาทมิฬเป็นภาษาอังกฤษจะช่วยประหยัดเวลาและความพยายามของมนุษย์ เราเปิดตัวคลังข้อมูลคุณภาพสูงใหม่สำหรับการฝึกอบรมมาตรฐานการประเมินผลและรายงานผลการทดลองด้วยสถาปัตยกรรมที่แตกต่างกันสองแบบตามตัวออกแบบเครื่องเข้ารหัสเพื่อแปลทมิฬเป็นภาษาอังกฤษ เราพยายามปรับปรุงเพิ่มเติมโดยการทดลองกับการฝังคำที่ผ่านการฝึกอบรมมาแล้วและปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ แม้ว่า Google-Translator จะให้ทมิฬเป็นภาษาอังกฤษและในทางกลับกันสถาปัตยกรรมที่นำไปใช้ของเราพร้อมกับชุดข้อมูลใหม่ แต่มีประสิทธิภาพสูงกว่านักแปล Google ด้วยคะแนน 7.5 Bleu ยิ่งไปกว่านั้นรูปแบบที่เราเสนอนั้นช่วยแก้ปัญหาคำศัพท์และโพลีเอมีได้มากขึ้น
อย่าลังเลที่จะดาวน์โหลดกระดาษของเราโดยใช้ลิงค์นี้
นี่คือแบบจำลองที่ผ่านการฝึกอบรมของเราตามที่กล่าวไว้ในรายงานการวิจัย: ลิงค์
ในการทดลองของเราเราใช้ภาษาอังกฤษแบบขนาน 236,427 ประโยค - ทมิฬเพิ่มเติมเราเพิ่มประโยคและชุดข้อมูลเพิ่มเติม ชุดข้อมูลสุดท้ายแบ่งออกเป็นหกภาษาอังกฤษ <--> ไฟล์ทมิฬที่แปลแบบขนานเพื่อความสะดวกในการแจกแจงโปรดตรวจสอบโฟลเดอร์ชุดข้อมูล หากคุณต้องการทดสอบรูปแบบล่าสุดที่ผ่านการฝึกอบรมและภาษาอื่น ๆ ที่เราครอบคลุมโปรดไปที่เครือข่าย TranslateMe
หากคุณยังประสบปัญหาอยู่โปรดติดต่อผู้เขียน:
วิธีการที่ประเมินทั้งหมดสำหรับการแปลภาษาทมิฬเป็นภาษาอังกฤษได้ทำโดยใช้ชุดข้อมูลเดียวกันสำหรับสถาปัตยกรรมทั้งสอง เราเปรียบเทียบผลลัพธ์ของเรากับ Google Translator Transformer Translator มีประสิทธิภาพสูงกว่านักแปลทมิฬที่เสนอและ Google Translator ซึ่งเป็นที่รู้จักกันว่าเป็นรุ่นที่รายงานที่ดีที่สุดสำหรับการแปลของเครื่อง ในขณะที่การทดลองกับนักแปลทมิฬเป็นที่ชัดเจนว่าการฝังตัวที่ผ่านการฝึกอบรมมาก่อนทำงานได้ดีกว่าการฝึกฝนจากคลังข้อมูลดังนั้นสำหรับนักแปลหม้อแปลง
นอกเหนือจากการประเมินคะแนน Bleu แล้วการประเมินผลของมนุษย์ยังดำเนินการโดยนักวิชาการชาวทมิฬ 3 คนได้รับการแปลแบบสุ่ม 100 ครั้งจากกันและกันโดยใช้รูปแบบการให้คะแนนต่อไปนี้:
คะแนนขั้นสุดท้ายการจัดอันดับผู้ใช้จะคำนวณเป็นค่าเฉลี่ยของการจัดอันดับทั้งหมดที่กำหนดโดยนักวิชาการในแต่ละรุ่นซึ่งแสดงในตารางด้านล่าง
สถาปัตยกรรมแบบจำลอง | เบลา | คะแนนผู้ใช้ |
---|---|---|
1. Google Translator | 8.6 | 2.6 |
2. นักแปลทมิฬ | 21.6 | 14.6 |
3. ทมิฬนักแปล + ฝังตัว pretrained | 14.9 | 3.1 |
4. Transformer Translator + Embeddings ที่ผ่านการฝึกอบรมล่วงหน้า | 16.1 | 3.8 |
หากคุณใช้ชุดข้อมูลของเราหรือส่วนอื่น ๆ ของกระดาษอย่าลืมอ้างอิงเราโดยใช้
@article { jain2020neural ,
title = { Neural machine translation for Tamil to English } ,
author = { Jain, Minni and Punia, Ravneet and Hooda, Ishika } ,
journal = { Journal of Statistics and Management Systems } ,
volume = { 23 } ,
number = { 7 } ,
pages = { 1251--1264 } ,
year = { 2020 } ,
publisher = { Taylor & Francis }
}