ネパール語と英語の言語ペアでのニューラル機械翻訳 (NMT)。ここで試してみることができます。
弊社で用意した並列データはこちらからご覧いただけます。
data_cleaning
ディレクトリには、レポートで説明されているクリーニング方法を実装するスクリプトが含まれています。
translator
ディレクトリには、トランスレータ用の作業インターフェイスがあります。
2019 年末にかけて、ここで説明するプロジェクトの下で追加の作業がいくつか実行されました。論文で報告されているモデルのチェックポイントはここにあります。トレーニング データには 2 つの部分があります: a) 実際の並列データ、b) 合成並列データ
2021 年 2 月の時点で、モデル ファイルとパッケージの最新バージョンとの間に互換性の問題がいくつかあります。これらを修正するには、次のバージョンのパッケージを使用します: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
。
より最近の結果については、上にリンクされている論文をご覧ください。
Guzman らが論文で報告している BLEU スコア 7.6 および 4.3 (教師ありメソッドの場合) は、 devtest
セットに含まれています。実際には、さらに 2 つのセットがリリースされています。 dev
セットと呼ばれる検証セットと、最近リリースされた (2019 年 10 月) test
セットです。上にリンクされているレポートでは、 dev
セットのスコアのみをレポートします。実装を使用してモデルを再現し、スコアを付けます。ここでは、 dev
とdevtest
セットの両方のスコアを報告します。
dev
セット上モデル | コーパスのサイズ | ネーエン | えんね |
---|---|---|---|
グズマンら。 (2019年) | 564k | 5.24 | 2.98 |
この作品 | 150k | 12.26 | 6.0 |
devtest
セット上モデル | ネーエン | えんね |
---|---|---|
グズマンら。 (2019年) | 7.6 | 4.3 |
この作品 | 14.51 | 6.58 |
devtest
の結果は、2500 の語彙サイズを使用するモデルからのものです。
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq はトレーニングに使用され、センテンスピースはコーパス上の BPE を学習するために使用され、sacremoses は英語のテキストを処理するために使用され、sacrebleu はモデルのスコアリングに使用され、flask はインターフェイスに使用されます。ネパール語テキストの処理には、インド語 NLP ライブラリを使用します。
すべてのライブラリはpip
使用してインストールできます。
トランスレーター インターフェイスを実行できるようにするには、インド語 NLP ライブラリをtranslator/app/modules/
にクローンする必要があります。
クリーニング スクリプトで使用されるpython-docx
やlxml
などの他のライブラリもあります。
Transformer の Fairseq 実装を使用してモデルをトレーニングした後、チェックポイント ファイルをtranslator/app/models/
にコピーし、チェックポイント ファイルの変換方向に基づいて名前をen-ne.pt
またはne-en.pt
に変更します。レポートの結果を実現するチェックポイント ファイルは、ここから入手できます。 .pt
ファイルをtranslator/app/models
にコピーします。
要件とモデルを準備したら、 translator
ディレクトリからpython app/app.py
を実行します。
トレーニング自体の詳細は、fairseq リポジトリまたはドキュメントから入手できます。 FLORES github も役立ちます。
タイプ | 文 |
---|---|
ソース | ठूला गोदामहरुले, यस क्षेत्रका साना सानाログイン して翻訳を追加するभण्डार गर्न थाले । |
参照 | 大規模な倉庫には、この地域の多くの小規模メーカーが製造した履物が保管されるようになりました。 |
システム | 大きな倉庫には、この地域の小規模生産者が製造した靴が保管されるようになりました。 |
タイプ | 文 |
---|---|
ソース | ログイン して翻訳を追加するवा घरेलु प्रयोगका लागि विभिन्न कार्यविधिहरूका बारे लेख्दछन्। |
参照 | テクニカル ライターは、ビジネス、専門的、または家庭で使用するためのさまざまな手順も作成します。 |
システム | 技術著者は、商業的、専門的、または家庭内での使用のためのさまざまな手順についても執筆しています。 |
タイプ | 文 |
---|---|
ソース | オバマ氏の言葉遣いは洗練されており、プーチン氏は率直に話し、句読点や統計を使うことを好むが、どちらも聴衆の心をつかむ同じ能力を持っている。 |
参照 | 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、ログイン して翻訳を追加する、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 तरंगित गर्ने समान क्षमता छ । |
システム | ओबामाको भाषा परिस्कृत छ 、पुटिन प्रत्यक्षログイン して翻訳を追加する、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 जित्न एउटै क्षमता छ । |
タイプ | 文 |
---|---|
ソース | リッティチョカは、そば粉に各種スパイスを混ぜた生地を詰めて火で焼き、スパイスペーストを添えて食べます。 |
参照 | ログイン して翻訳を追加する - ログイン してください。 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 पस्किइन्छ । |
システム | ログイン して翻訳を追加するफूल मिसाएर तयार पारिन्छ र यसलाई आगोमाログイン して翻訳を追加する |
あなたの仕事でこのプロジェクトの一部を使用する場合は、この論文を引用してください。
カトマンズ大学のコンピューター サイエンス プログラムの 6 学期を修了するため。 2019年7月。