Neural Machine Translation (NMT) pada pasangan bahasa Nepal-Inggris. Anda dapat mencobanya di sini.
Data paralel yang kami siapkan dapat ditemukan di sini.
direktori data_cleaning
memiliki skrip yang mengimplementasikan metode pembersihan yang dibahas dalam laporan.
direktori translator
memiliki antarmuka yang berfungsi untuk penerjemah.
Menjelang akhir tahun 2019, beberapa pekerjaan tambahan telah dilakukan dalam proyek ini, yang dijelaskan di sini. Model pos pemeriksaan yang dilaporkan di koran ada di sini. Data pelatihan memiliki dua bagian: a) data paralel nyata, b) data paralel sintetik
Mulai Februari 2021, ada beberapa masalah kompatibilitas antara file model dan versi paket yang lebih baru. Untuk memperbaikinya, gunakan versi paket berikut: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
.
Temukan hasil terbaru di makalah yang ditautkan di atas.
Skor BLEU sebesar 7,6 dan 4,3 (untuk metode yang diawasi) yang dilaporkan Guzman dkk dalam makalah mereka berada pada titik devtest
. Sebenarnya ada dua set lagi yang mereka rilis: set validasi yang disebut set dev
dan set test
yang baru dirilis (Oktober 2019). Dalam laporan yang ditautkan di atas, kami hanya melaporkan skor pada set dev
. Kami mereproduksi model mereka menggunakan implementasinya untuk menilai model tersebut. Di sini kami melaporkan skor pada set dev
dan devtest
.
dev
Model | Ukuran tubuh | TIDAK-EN | EN-NE |
---|---|---|---|
Guzman dkk. (2019) | 564k | 5.24 | 2.98 |
Pekerjaan ini | 150k | 12.26 | 6.0 |
devtest
Model | TIDAK-EN | EN-NE |
---|---|---|
Guzman dkk. (2019) | 7.6 | 4.3 |
Pekerjaan ini | 14.51 | 6.58 |
Hasil devtest
berasal dari model yang menggunakan ukuran vocab 2500.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq digunakan untuk pelatihan, kalimat digunakan untuk mempelajari BPE pada korpus, sakral untuk mengolah teks bahasa Inggris, sakral untuk menilai model, labu untuk antarmuka. Untuk menangani teks Nepal, kami menggunakan Perpustakaan NLP Indic.
Semua perpustakaan dapat diinstal menggunakan pip
.
Untuk dapat menjalankan antarmuka penerjemah, Perpustakaan NLP Indic perlu dikloning ke translator/app/modules/
.
Ada perpustakaan lain seperti python-docx
dan lxml
yang digunakan oleh skrip pembersihan.
Setelah melatih model menggunakan implementasi fairseq Transformer, salin file pos pemeriksaan ke translator/app/models/
dan ganti namanya menjadi en-ne.pt
atau ne-en.pt
berdasarkan arah terjemahan file pos pemeriksaan. File pos pemeriksaan yang merealisasikan hasil dalam laporan tersedia di sini. Salin file .pt
ke translator/app/models
.
Setelah persyaratan dan model tersedia, jalankan python app/app.py
dari direktori translator
.
Detail pelatihannya sendiri dapat diperoleh dari repo atau dokumentasi fairseq. Github FLORES juga berguna.
Jenis | Kalimat |
---|---|
Sumber | Terima kasih, terima kasih banyak. Layanan Pelanggan yang Baik Terima Kasih |
Referensi | Gudang-gudang besar mulai menyimpan alas kaki di gudang-gudang, yang dibuat oleh banyak produsen kecil dari daerah tersebut. |
Sistem | Gudang-gudang besar mulai menyimpan sepatu buatan produsen kecil di daerah ini. |
Jenis | Kalimat |
---|---|
Sumber | प्राविधिक, पेशागत Layanan Pelanggan Layanan Pelanggan |
Referensi | Penulis teknis juga menulis berbagai prosedur untuk keperluan bisnis, profesional atau rumah tangga. |
Sistem | Penulis teknis juga menulis tentang berbagai prosedur untuk penggunaan komersial, profesional atau rumah tangga. |
Jenis | Kalimat |
---|---|
Sumber | Bahasa Obama canggih, Putin berbicara langsung dan lebih suka menggunakan tanda baca dan statistik, namun keduanya memiliki kemampuan yang sama dalam merebut hati audiens. |
Referensi | ओबामाको भाषा , , dan lainnya Pinjaman Pelanggan Terima kasih, terima kasih. Layanan Pelanggan |
Sistem | ओबामाको भाषा , , dan lainnya Pembayaran Pinjaman Terima Kasih , Terima Kasih . Terima Kasih |
Jenis | Kalimat |
---|---|
Sumber | Litti Chokha diolah dengan cara memasukkan tepung soba yang dicampur berbagai bumbu ke dalam adonan dan memanggangnya di atas api, serta disajikan dengan pasta bumbu. |
Referensi | Pembayaran Kembali - Pembayaran Kembali मसला हालेर आगोमा , , dan lainnya पस्किइन्छ । |
Sistem | Layanan Pelanggan yang Baik Pinjaman dan Layanan Pelanggan Layanan Pelanggan yang Baik. |
Jika Anda menggunakan bagian mana pun dari proyek ini dalam pekerjaan Anda, harap kutip makalah ini.
Untuk penyelesaian semester enam program Ilmu Komputer di Universitas Kathmandu. Juli 2019.