Neural Machine Translation (NMT) für das Sprachpaar Nepali-Englisch. Hier können Sie es ausprobieren.
Die von uns aufbereiteten Paralleldaten finden Sie hier.
Das Verzeichnis data_cleaning
enthält die Skripts, die die im Bericht besprochenen Reinigungsmethoden implementieren.
translator
verfügt über eine Arbeitsoberfläche für den Übersetzer.
Gegen Ende des Jahres 2019 wurden im Rahmen des hier beschriebenen Projekts einige zusätzliche Arbeiten durchgeführt. Die im Papier genannten Musterkontrollpunkte finden Sie hier. Die Trainingsdaten bestehen aus zwei Teilen: a) echten Paralleldaten, b) synthetischen Paralleldaten
Ab Februar 2021 gibt es einige Kompatibilitätsprobleme zwischen den Modelldateien und den neueren Versionen der Pakete. Um diese zu beheben, verwenden Sie die folgenden Versionen der Pakete: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
.
Die neueren Ergebnisse finden Sie im oben verlinkten Papier.
Die BLEU-Werte von 7,6 und 4,3 (für überwachte Methoden), die Guzman et al. in ihrer Arbeit angeben, stammen aus ihrem devtest
Set. Es gibt tatsächlich zwei weitere Sets, die sie veröffentlichen: das Validierungsset namens dev
Set und das kürzlich veröffentlichte (Oktober 2019) test
. Im oben verlinkten Bericht berichten wir nur über die Ergebnisse des dev
. Wir reproduzieren ihr Modell anhand ihrer Implementierung, um es zu bewerten. Hier berichten wir über die Ergebnisse sowohl für dev
als auch für devtest
-Sets.
dev
Modelle | Korpusgröße | NE-EN | EN-NE |
---|---|---|---|
Guzman et al. (2019) | 564k | 5.24 | 2,98 |
Diese Arbeit | 150.000 | 12.26 | 6,0 |
devtest
SetModelle | NE-EN | EN-NE |
---|---|---|
Guzman et al. (2019) | 7.6 | 4.3 |
Diese Arbeit | 14.51 | 6.58 |
Die Ergebnisse von devtest
stammen von Modellen, die Vokabelgrößen von 2500 verwenden.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq wird für das Training verwendet, Satzstück wird verwendet, um BPE über den Korpus zu lernen, Sacremoses für die Behandlung englischer Texte, Sacrebleu für die Bewertung der Modelle, Flask für die Schnittstelle. Für die Bearbeitung des nepalesischen Textes nutzen wir die Indic NLP Library.
Alle Bibliotheken können mit pip
installiert werden.
Um die Übersetzerschnittstelle ausführen zu können, muss die Indic NLP Library nach translator/app/modules/
geklont werden.
Es gibt andere Bibliotheken wie python-docx
und lxml
die von den Reinigungsskripten verwendet werden.
Nachdem Sie ein Modell mit der fairseq-Implementierung von Transformer trainiert haben, kopieren Sie die Prüfpunktdatei nach translator/app/models/
und benennen Sie sie je nach Übersetzungsrichtung der Prüfpunktdatei in en-ne.pt
oder ne-en.pt
um. Die Prüfpunktdateien, die die Ergebnisse im Bericht realisieren, sind hier verfügbar. Kopieren Sie die .pt
Dateien nach translator/app/models
.
Nachdem Anforderungen und Modelle vorhanden sind, führen Sie python app/app.py
aus translator
aus.
Einzelheiten zur Schulung selbst können dem Fairseq-Repo oder der Dokumentation entnommen werden. Der FLORES-Github ist ebenfalls nützlich.
Typ | Satz |
---|---|
Quelle | ठूला गोदामहरुले, यस क्षेत्रका साना साना धेरै निर्माता हरु द्वारा बनाईएका जुत्ताहरु भण्डार गर्न थाले । |
Referenz | Große Lagerhäuser begannen, Schuhe zu lagern, die von vielen kleinen Herstellern aus der Gegend hergestellt wurden. |
System | In großen Lagerhäusern wurden Schuhe gelagert, die von kleinen Herstellern dieser Gegend hergestellt wurden. |
Typ | Satz |
---|---|
Quelle | प्राविधिक लेखकहरूले पनि व्यापारिक, पेशागत वा घरेलु प्रयोगका लागि विभिन्न कार्यविधिहरूका बारे लेख्दछन्। |
Referenz | Technische Redakteure schreiben außerdem verschiedene Verfahren für den geschäftlichen, beruflichen oder privaten Gebrauch. |
System | Fachautoren schreiben auch über verschiedene Verfahren für den gewerblichen, professionellen oder privaten Gebrauch. |
Typ | Satz |
---|---|
Quelle | Obamas Sprache ist anspruchsvoll, Putin spricht direkt und verwendet bevorzugt Interpunktion und Statistiken, aber beide haben die gleiche Fähigkeit, das Herz des Publikums zu gewinnen. |
Referenz | ओबामाको भाषा परिस्कृत छ , पुटिन ठाडो भाषामा तुक्का र तथ्याङ्क प्रयोग गरेर बोल्न रुचाउँछन् , तर दुवैसँग श्रोताको हृदयलाई तरंगित गर्ने समान क्षमता छ । |
System | ओबामाको भाषा परिस्कृत छ , पुटिन प्रत्यक्ष रूपमा वाचन र तथ्याङ्क प्रयोग गर्न प्राथमिकता दिन्छ , तर दुवै श्रोताको मुटु जित्न एउटै क्षमता छ । |
Typ | Satz |
---|---|
Quelle | Litti Chokha wird zubereitet, indem Buchweizenmehl mit verschiedenen Gewürzen in Teig gefüllt und im Feuer geröstet wird. Anschließend wird es mit Gewürzpaste serviert. |
Referenz | लिट्टी चोखा - लिट्टी जुन आंटा भित्र सत्तू तथा मसला हालेर आगोमा सेकेर बनाईन्छ , को चोखे सँग पस्किइन्छ । |
System | लोती चोखोका विभिन्न मसला मिसाएर बकवाहेट फूल मिसाएर तयार पारिन्छ र यसलाई आगोमा टाँस्न र मसला टाँस्ने सेवा गरिन्छ । |
Wenn Sie Teile dieses Projekts in Ihrer Arbeit verwenden, zitieren Sie bitte dieses Dokument.
Für den Abschluss des sechsten Semesters des Informatikprogramms an der Universität Kathmandu. Juli 2019.