尼泊尔语-英语语言对的神经机器翻译 (NMT)。你可以在这里尝试一下。
我们准备的并行数据可以在这里找到。
data_cleaning
目录包含实现报告中讨论的清洁方法的脚本。
translator
目录有一个翻译者的工作界面。
到 2019 年底,该项目开展了一些额外的工作,如下所述。论文中报告的模型检查点在这里。训练数据有两部分:a)真实并行数据,b)合成并行数据
截至 2021 年 2 月,模型文件和最新版本的包之间存在一些兼容性问题。要修复这些问题,请使用以下版本的软件包: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
。
在上面链接的论文中查找最新的结果。
Guzman 等人在他们的论文中报告的 BLEU 分数为 7.6 和 4.3(针对监督方法)位于他们的devtest
集上。他们实际上还发布了另外两个集:称为dev
集的验证集和最近发布的(2019 年 10 月) test
集。在上面链接的报告中,我们仅报告dev
集的分数。我们使用他们的实现来重现他们的模型并对其进行评分。在这里,我们报告dev
和devtest
集的分数。
dev
集上型号 | 语料库大小 | NE-EN | EN-NE |
---|---|---|---|
古兹曼等人。 (2019) | 564k | 5.24 | 2.98 |
这部作品 | 15万 | 12.26 | 6.0 |
devtest
集上型号 | NE-EN | EN-NE |
---|---|---|
古兹曼等人。 (2019) | 7.6 | 4.3 |
这部作品 | 14.51 | 6.58 |
devtest
的结果来自使用词汇量为 2500 的模型。
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq 用于训练,sentpiece 用于在语料库上学习 BPE,sacremoses 用于处理英文文本,sacrebleu 用于对模型进行评分,flask 用于界面。为了处理尼泊尔语文本,我们使用印度语 NLP 库。
所有库都可以使用pip
安装。
为了能够运行翻译器界面,需要将 Indic NLP 库克隆到translator/app/modules/
。
清理脚本还使用其他库,例如python-docx
和lxml
。
使用Transformer的fairseq实现训练模型后,将检查点文件复制到translator/app/models/
并根据检查点文件的翻译方向将其重命名为en-ne.pt
或ne-en.pt
。实现报告中结果的检查点文件可在此处获取。将.pt
文件复制到translator/app/models
。
需求和模型就位后,从translator
目录运行python app/app.py
。
有关培训本身的详细信息可以从 fairseq 存储库或文档中获取。 FLORES github 也很有用。
类型 | 句子 |
---|---|
来源 | ठूला गोदामहरुले, यस क्षेत्रका साना साना धेरै निर्माता हरु द्वारा बनाईएका जुत्ताहरु भण्डार गर्न थाले । |
参考 | 大型仓库开始在仓库中储存鞋类产品,这些鞋类产品是由该地区的许多小制造商生产的。 |
系统 | 大型仓库开始储存该地区小生产商生产的鞋子。 |
类型 | 句子 |
---|---|
来源 | प्राविधिकलेखकहरूलेपनिव्यापारिक,पेशागतवाघरेलु प्रयोगका लागि विभिन्न कार्यविधिहरूका बारे लेख्दछन्। |
参考 | 技术作家还编写各种商业、专业或家庭使用的程序。 |
系统 | 技术作者还撰写有关商业、专业或家庭用途的各种程序。 |
类型 | 句子 |
---|---|
来源 | 奥巴马的语言老练,普京说话直接,更喜欢使用标点符号和统计数据,但两人都有同样的能力赢得观众的心。 |
参考 | 、 、 、 、 、 、 、 、 、 、 、 、 、 , , , , , , , , , श्रोताको हृदयलाई तरंगित गर्ने समान क्षमता छ । |
系统 | 、 、 、 、 、 、 、 、 、 、 、 、 、 , , , , , , , , , , , , , , , , , श्रोताको मुटु जित्न एउटै क्षमता छ । |
类型 | 句子 |
---|---|
来源 | Litti Chokha是将荞麦粉和各种香料混合在面团中,用火烘烤而成,配以香料酱。 |
参考 | लिट्टी चोखा - लिट्टी जुन आंटा भित्र सत्तू तथा मसला हालेर आगोमा सेकेर बनाईन्छ , को चोखे सँग पस्किइन्छ । |
系统 | लोती चोखोका विभिन्न मसला मिसाएर बकवाहेट फूल मिसाएर तयार पारिन्छ र यसलाई आगोमा टाँस्न र मसला टाँस्ने सेवा गरिन्छ । |
如果您在工作中使用该项目的任何部分,请引用本文。
完成加德满都大学计算机科学课程的第六学期。 2019 年 7 月。