Traducción automática neuronal (NMT) en el par de idiomas nepalí-inglés. Puedes probarlo aquí.
Los datos paralelos que preparamos se pueden encontrar aquí.
El directorio data_cleaning
tiene los scripts que implementan los métodos de limpieza discutidos en el informe.
El directorio translator
tiene una interfaz de trabajo para el traductor.
A finales de 2019 se llevaron a cabo algunos trabajos adicionales en el marco del proyecto, que se describe aquí. Los puntos de control modelo informados en el artículo están aquí. Los datos de entrenamiento tienen dos partes: a) datos paralelos reales, b) datos paralelos sintéticos
A partir de febrero de 2021, existen algunos problemas de compatibilidad entre los archivos del modelo y las versiones más recientes de los paquetes. Para solucionar estos problemas, utilice las siguientes versiones de los paquetes: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
.
Encuentre los resultados más recientes en el artículo vinculado anteriormente.
Las puntuaciones BLEU de 7,6 y 4,3 (para métodos supervisados) que Guzmán et al informan en su artículo están en su conjunto devtest
. En realidad, lanzan dos conjuntos más: el conjunto de validación llamado conjunto dev
y el conjunto test
lanzado recientemente (octubre de 2019). En el informe vinculado anteriormente, solo informamos las puntuaciones del conjunto dev
. Reproducimos su modelo usando su implementación para calificarlo. Aquí informamos las puntuaciones tanto en los conjuntos dev
como en los devtest
.
dev
Modelos | Tamaño del cuerpo | NE-EN | EN-NE |
---|---|---|---|
Guzmán et al. (2019) | 564k | 5.24 | 2,98 |
este trabajo | 150k | 12.26 | 6.0 |
devtest
Modelos | NE-EN | EN-NE |
---|---|---|
Guzmán et al. (2019) | 7.6 | 4.3 |
este trabajo | 14.51 | 6.58 |
Los resultados de devtest
provienen de modelos que utilizan tamaños de vocabulario de 2500.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq se usa para entrenamiento, frase se usa para aprender BPE sobre el corpus, sacremoses para tratar texto en inglés, sacrebleu para calificar los modelos, flask para la interfaz. Para manejar el texto nepalí, utilizamos la biblioteca índica de PNL.
Todas las bibliotecas se pueden instalar usando pip
.
Para poder ejecutar la interfaz del traductor, la biblioteca Indic NLP debe clonarse en translator/app/modules/
.
Hay otras bibliotecas como python-docx
y lxml
utilizadas por los scripts de limpieza.
Después de entrenar un modelo utilizando la implementación fairseq de Transformer, copie el archivo de punto de control a translator/app/models/
y cámbiele el nombre a en-ne.pt
o ne-en.pt
según la dirección de traducción del archivo de punto de control. Los archivos de puntos de control que dan cuenta de los resultados del informe están disponibles aquí. Copie los archivos .pt
a translator/app/models
.
Una vez establecidos los requisitos y modelos, ejecute python app/app.py
desde el directorio translator
.
Los detalles sobre la capacitación en sí se pueden obtener en el repositorio o la documentación de Fairseq. El github de FLORES también es útil.
Tipo | Oración |
---|---|
Fuente | ठूला गोदामहरुले, यस क्षेत्रका साना साना Más información भण्डार गर्न थाले । |
Referencia | Grandes almacenes comenzaron a almacenar en almacenes calzado, elaborado por muchos pequeños fabricantes de la zona. |
Sistema | Grandes almacenes comenzaron a almacenar calzado elaborado por pequeños productores de esta zona. |
Tipo | Oración |
---|---|
Fuente | प्राविधिक लेखकहरूले पनि व्यापारिक, पेशागत वा घरेलु प्रयोगका लागि विभिन्न कार्यविधिहरूका बारे लेख्दछन्। |
Referencia | Los redactores técnicos también escriben diversos procedimientos para uso comercial, profesional o doméstico. |
Sistema | Los autores técnicos también escriben sobre diversos procedimientos para uso comercial, profesional o doméstico. |
Tipo | Oración |
---|---|
Fuente | El lenguaje de Obama es sofisticado, Putin habla directamente y prefiere utilizar la puntuación y las estadísticas, pero ambos tienen la misma capacidad para ganarse el corazón de la audiencia. |
Referencia | ओबामाको भाषा परिस्कृत छ , पुटिन ठाडो भाषामा तुक्का र तथ्याङ्क प्रयोग गरेर बोल्न रुचाउँछन् , तर दुवैसँग श्रोताको हृदयलाई तरंगित गर्ने समान क्षमता छ । |
Sistema | ओबामाको भाषा परिस्कृत छ, पुटिन प्रत्यक्ष रूपमा वाचन र तथ्याङ्क प्रयोग गर्न प्राथमिकता दिन्छ , तर दुवै श्रोताको मुटु जित्न एउटै क्षमता छ । |
Tipo | Oración |
---|---|
Fuente | Litti Chokha se prepara rellenando una masa con harina de trigo sarraceno mezclada con varias especias y tostándola al fuego, y se sirve con pasta de especias. |
Referencia | लिट्टी चोखा - लिट्टी जुन आंटा भित्र सत्तू तथा मसला हालेर आगोमा सेकेर बनाईन्छ, को चोखे सँग पस्किइन्छ । |
Sistema | लोती चोखोका विभिन्न मसला मिसाएर बकवाहेट फूल मिसाएर तयार पारिन्छ र यसलाई आगोमा टाँस्न र मसला टाँस्ने सेवा गरिन्छ । |
Si utiliza alguna parte de este proyecto en su trabajo, cite este documento.
Para completar el sexto semestre del programa de Ciencias de la Computación en la Universidad de Katmandú. Julio de 2019.