Neural Machine Translation (NMT) ในคู่ภาษาเนปาล-อังกฤษ คุณสามารถลองได้ที่นี่
ข้อมูลคู่ขนานที่เราเตรียมไว้สามารถพบได้ที่นี่
ไดเร็กทอรี data_cleaning
มีสคริปต์ที่ใช้วิธีการทำความสะอาดที่กล่าวถึงในรายงาน
ไดเร็กทอรี translator
มีส่วนต่อประสานที่ใช้งานได้สำหรับนักแปล
ในช่วงปลายปี 2019 มีการดำเนินงานเพิ่มเติมบางอย่างภายใต้โครงการนี้ ตามที่อธิบายไว้ที่นี่ จุดตรวจแบบจำลองที่รายงานในรายงานอยู่ที่นี่ ข้อมูลการฝึกอบรมมีสองส่วน: ก) ข้อมูลคู่ขนานจริง ข) ข้อมูลคู่ขนานสังเคราะห์
ณ เดือนกุมภาพันธ์ 2021 มีปัญหาความเข้ากันได้เล็กน้อยระหว่างไฟล์โมเดลและแพ็คเกจเวอร์ชันล่าสุด เพื่อแก้ไขปัญหาเหล่านี้ ให้ใช้แพ็คเกจเวอร์ชันต่อไปนี้: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
ค้นหาผลลัพธ์ล่าสุดในบทความที่ลิงก์ด้านบน
คะแนน BLEU 7.6 และ 4.3 (สำหรับวิธีการภายใต้การดูแล) ที่ Guzman และคณะรายงานในรายงานของพวกเขาอยู่ในชุด devtest
จริงๆ แล้วยังมีชุดที่ปล่อยออกมาอีกสองชุด ได้แก่ ชุดการตรวจสอบที่เรียกว่า dev
set และชุด test
ที่เพิ่งเปิดตัว (ตุลาคม 2019) ในรายงานที่ลิงก์ด้านบน เราจะรายงานเฉพาะคะแนนในชุด dev
เท่านั้น เราทำซ้ำโมเดลโดยใช้การนำไปปฏิบัติเพื่อให้คะแนน ที่นี่เราจะรายงานคะแนนของทั้งชุด dev
และชุด devtest
dev
โมเดล | ขนาดคอร์ปัส | นี-เอ็น | EN-NE |
---|---|---|---|
กุซมาน และคณะ (2019) | 564k | 5.24 | 2.98 |
งานนี้. | 150,000 | 12.26 | 6.0 |
devtest
โมเดล | นี-เอ็น | EN-NE |
---|---|---|
กุซมาน และคณะ (2019) | 7.6 | 4.3 |
งานนี้. | 14.51 | 6.58 |
ผลลัพธ์ของ devtest
มาจากโมเดลที่ใช้คำศัพท์ขนาด 2500
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq ใช้สำหรับการฝึก, ประโยคใช้ในการเรียนรู้ BPE บนคลังข้อมูล, sacremoses สำหรับการจัดการข้อความภาษาอังกฤษ, sacrebleu สำหรับการให้คะแนนแบบจำลอง, ขวดสำหรับอินเทอร์เฟซ ในการจัดการข้อความภาษาเนปาล เราใช้ Indic NLP Library
ไลบรารีทั้งหมดสามารถติดตั้งได้โดยใช้ pip
เพื่อให้สามารถเรียกใช้อินเทอร์เฟซของนักแปลได้ ไลบรารี NLP ของอินเดียจำเป็นต้องได้รับการโคลนไปยัง translator/app/modules/
มีไลบรารีอื่น ๆ เช่น python-docx
และ lxml
ที่ใช้โดยสคริปต์การทำความสะอาด
หลังจากการฝึกฝนโมเดลโดยใช้การใช้ fairseq ของ Transformer ให้คัดลอกไฟล์จุดตรวจสอบไปยัง translator/app/models/
และเปลี่ยนชื่อเป็น en-ne.pt
หรือ ne-en.pt
ตามทิศทางการแปลของไฟล์จุดตรวจสอบ ไฟล์จุดตรวจสอบที่ทราบผลลัพธ์ในรายงานมีอยู่ที่นี่ คัดลอกไฟล์ .pt
ไปยัง translator/app/models
หลังจากที่มีข้อกำหนดและโมเดลแล้ว ให้รัน python app/app.py
จากไดเร็กทอรี translator
รายละเอียดเกี่ยวกับการฝึกอบรมสามารถรับได้จาก repo หรือเอกสารประกอบของ fairseq GitHub ของ FLORES ก็มีประโยชน์เช่นกัน
พิมพ์ | ประโยค |
---|---|
แหล่งที่มา | ठूला गोदामहरुले, यस क्षेत्रका साना साना धेरै निर्माता हरु द्वारा बनाईएका जुत्ताहरु भण्डार गर्न. थाले । |
อ้างอิง | โกดังขนาดใหญ่เริ่มสต็อกรองเท้าในโกดังซึ่งผลิตโดยผู้ผลิตรายย่อยหลายรายจากในพื้นที่ |
ระบบ | โกดังขนาดใหญ่เริ่มเก็บรองเท้าที่ผลิตโดยผู้ผลิตรายย่อยในบริเวณนี้ |
พิมพ์ | ประโยค |
---|---|
แหล่งที่มา | प्राविधिक लेखकहरूले पनि व्यापारик, पेशागत वा घरेलु प्रयोगका लागि विभिन्न कार्यविधिहरूका बारे เลขาเดย์छन्। |
อ้างอิง | นักเขียนด้านเทคนิคยังเขียนขั้นตอนต่างๆ สำหรับการใช้งานทางธุรกิจ วิชาชีพ หรือในบ้านอีกด้วย |
ระบบ | ผู้เขียนด้านเทคนิคยังเขียนเกี่ยวกับขั้นตอนต่างๆ สำหรับการใช้งานเชิงพาณิชย์ ระดับมืออาชีพ หรือในบ้าน |
พิมพ์ | ประโยค |
---|---|
แหล่งที่มา | ภาษาของโอบามามีความซับซ้อน ปูตินพูดโดยตรงและชอบใช้เครื่องหมายวรรคตอนและสถิติ แต่ทั้งสองมีความสามารถเหมือนกันในการเอาชนะใจผู้ฟัง |
อ้างอิง | ओबामाको भाषा परिस्कृत छ , पृन ठाडो भाषामा तुक्का र तथ्याङ्क प्रयोगरेर बोल्न रुचाउँछन् , तर दुवैसँग श्रोताको हृदयलाई तरंगित गर्ने समान क्षमता छ । |
ระบบ | ओबामाको भाषा परिस्कृत छ , पृन प्रत्यक्ष रूपमा वाचन र तथ्याङ्क प्रयोग गर्न प्राथिकता दिन्छ , तर दुवै श्रोताको मुटु जित्न एउटै क्षमता छ । |
พิมพ์ | ประโยค |
---|---|
แหล่งที่มา | Litti Chokha เตรียมโดยการบรรจุแป้งบัควีทผสมกับเครื่องเทศต่างๆ ในแป้งแล้วปิ้งในไฟ และเสิร์ฟพร้อมกับเครื่องเทศบด |
อ้างอิง | लिट्टी चोखा - लिट्टी जुन आंटा भित्र सत्तू तथा मसला हालेर आगोमा सेकेरबनाईन्छ , को चोखे सँग เพจสคซิइन्छ । |
ระบบ | लोती चोखोका विभिन्न मसला मिसाएर बकवाहेट फूल मिसाएर तयार पारिन्छ र यसलाई आगोमा टाँस्न र मसला TAँस्ने सेवा गरिन्छ । |
หากคุณใช้ส่วนใดส่วนหนึ่งของโครงการนี้ในงานของคุณ โปรดอ้างอิงบทความนี้
เพื่อสำเร็จการศึกษาภาคเรียนที่ 6 สาขาวิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยกาฐมา ณ ฑุ กรกฎาคม 2019.