Traduction automatique neuronale (NMT) sur la paire de langues népalais-anglais. Vous pouvez l'essayer ici.
Les données parallèles que nous avons préparées peuvent être trouvées ici.
Le répertoire data_cleaning
contient les scripts qui implémentent les méthodes de nettoyage décrites dans le rapport.
Le répertoire translator
a une interface de travail pour le traducteur.
Vers la fin de l'année 2019, des travaux supplémentaires ont été réalisés dans le cadre du projet décrit ici. Les modèles de points de contrôle rapportés dans le document sont ici. Les données d'entraînement comportent deux parties : a) des données parallèles réelles, b) des données parallèles synthétiques
Depuis février 2021, il existe quelques problèmes de compatibilité entre les fichiers de modèle et les versions les plus récentes des packages. Pour résoudre ces problèmes, utilisez les versions suivantes des packages : torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
.
Trouvez les résultats les plus récents dans l’article lié ci-dessus.
Les scores BLEU de 7,6 et 4,3 (pour les méthodes supervisées) que Guzman et al rapportent dans leur article font partie de leur ensemble devtest
. Ils publient en fait deux autres ensembles : l'ensemble de validation appelé dev
set et l'ensemble test
récemment publié (octobre 2019). Dans le rapport lié ci-dessus, nous rapportons uniquement les scores de l'ensemble dev
. Nous reproduisons leur modèle en utilisant leur implémentation pour le noter. Nous rapportons ici les scores sur les ensembles dev
et devtest
.
dev
Modèles | Taille du corpus | NE-EN | FR-NE |
---|---|---|---|
Guzmán et coll. (2019) | 564k | 5.24 | 2,98 |
Ce travail | 150k | 12.26 | 6.0 |
devtest
Modèles | NE-EN | FR-NE |
---|---|---|
Guzmán et coll. (2019) | 7.6 | 4.3 |
Ce travail | 14.51 | 6,58 |
Les résultats sur devtest
proviennent de modèles qui utilisent des tailles de vocabulaire de 2 500.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq est utilisé pour la formation, sentencepiece est utilisé pour apprendre le BPE sur le corpus, sacremoses pour traiter le texte anglais, sacrebleu pour la notation des modèles, flask pour l'interface. Pour gérer le texte népalais, nous utilisons la bibliothèque Indic NLP.
Toutes les bibliothèques peuvent être installées en utilisant pip
.
Pour pouvoir exécuter l'interface du traducteur, la bibliothèque Indic NLP doit être clonée dans translator/app/modules/
.
Il existe d'autres bibliothèques comme python-docx
et lxml
utilisées par les scripts de nettoyage.
Après avoir entraîné un modèle à l'aide de l'implémentation fairseq de Transformer, copiez le fichier de point de contrôle dans translator/app/models/
et renommez- en-ne.pt
ou ne-en.pt
en fonction du sens de traduction du fichier de point de contrôle. Les fichiers de points de contrôle qui réalisent les résultats du rapport sont disponibles ici. Copiez les fichiers .pt
dans translator/app/models
.
Une fois les exigences et les modèles en place, exécutez python app/app.py
à partir du répertoire translator
.
Des détails sur la formation elle-même peuvent être obtenus à partir du référentiel ou de la documentation fairseq. Le github FLORES est également utile.
Taper | Phrase |
---|---|
Source | ठूला गोदामहरुले, यस क्षेत्रका साना साना धेरै निर्माता हरु द्वारा बनाईएका जुत्ताहरु भण्डार गर्न थाले । |
Référence | Les grands entrepôts ont commencé à stocker des chaussures dans des entrepôts, fabriquées par de nombreux petits fabricants de la région. |
Système | De grands entrepôts ont commencé à stocker les chaussures fabriquées par les petits producteurs de la région. |
Taper | Phrase |
---|---|
Source | C'est vrai, c'est vrai. वा घरेलु प्रयोगका लागि विभिन्न कार्यविधिहरूका बारे लेख्दछन्। |
Référence | Les rédacteurs techniques rédigent également diverses procédures à usage commercial, professionnel ou domestique. |
Système | Les auteurs techniques écrivent également sur diverses procédures à usage commercial, professionnel ou domestique. |
Taper | Phrase |
---|---|
Source | Le langage d'Obama est sophistiqué, Poutine parle directement et préfère utiliser la ponctuation et les statistiques, mais les deux ont la même capacité à gagner le cœur du public. |
Référence | ओबामाको भाषा परिस्कृत छ , पुटिन ठाडो भाषामा तुक्का र तथ्याङ्क प्रयोग गरेर बोल्न रुचाउँछन् , तर दुवैसँग श्रोताको हृदयलाई तरंगित गर्ने समान क्षमता छ । |
Système | ओबामाको भाषा परिस्कृत छ , पुटिन प्रत्यक्ष रूपमा वाचन र तथ्याङ्क प्रयोग गर्न प्राथमिकता दिन्छ , तर दुवै श्रोताको मुटु जित्न एउटै क्षमता छ । |
Taper | Phrase |
---|---|
Source | Le Litti Chokha est préparé en farcissant de la farine de sarrasin mélangée à diverses épices dans une pâte et en la faisant griller au feu, et est servi avec de la pâte d'épices. |
Référence | लिट्टी चोखा - लिट्टी जुन आंटा भित्र सत्तू तथा मसला हालेर आगोमा सेकेर बनाईन्छ , को चोखे सँग पस्किइन्छ । |
Système | लोती चोखोका विभिन्न मसला मिसाएर बकवाहेट फूल मिसाएर तयार पारिन्छ र यसलाई आगोमा टाँस्न र मसला टाँस्ने सेवा गरिन्छ । |
Si vous utilisez une partie de ce projet dans votre travail, veuillez citer cet article.
Pour l'achèvement du sixième semestre du programme d'informatique à l'Université de Katmandou. Juillet 2019.