Descargar nepali translator - nepali translator Descarga del código fuente

nepali translator

Otro código fuente

Descargar

Traductor nepalí

Traducción automática neuronal (NMT) en el par de idiomas nepalí-inglés. Puedes probarlo aquí.

Los datos paralelos que preparamos se pueden encontrar aquí.

El directorio data_cleaning tiene los scripts que implementan los métodos de limpieza discutidos en el informe.

El directorio translator tiene una interfaz de trabajo para el traductor.

Actualizaciones

A finales de 2019 se llevaron a cabo algunos trabajos adicionales en el marco del proyecto, que se describe aquí. Los puntos de control modelo informados en el artículo están aquí. Los datos de entrenamiento tienen dos partes: a) datos paralelos reales, b) datos paralelos sintéticos

A partir de febrero de 2021, existen algunos problemas de compatibilidad entre los archivos del modelo y las versiones más recientes de los paquetes. Para solucionar estos problemas, utilice las siguientes versiones de los paquetes: torch-1.3.0 fairseq-0.9.0 portalocker-2.0.0 sacrebleu-1.4.14 sacremoses-0.0.43 sentencepiece-0.1.91 .

Resultados

Encuentre los resultados más recientes en el artículo vinculado anteriormente.

Las puntuaciones BLEU de 7,6 y 4,3 (para métodos supervisados) que Guzmán et al informan en su artículo están en su conjunto devtest . En realidad, lanzan dos conjuntos más: el conjunto de validación llamado conjunto dev y el conjunto test lanzado recientemente (octubre de 2019). En el informe vinculado anteriormente, solo informamos las puntuaciones del conjunto dev . Reproducimos su modelo usando su implementación para calificarlo. Aquí informamos las puntuaciones tanto en los conjuntos dev como en los devtest .

En el conjunto de `dev`

Modelos	Tamaño del cuerpo	NE-EN	EN-NE
Guzmán et al. (2019)	564k	5.24	2,98
este trabajo	150k	12.26	6.0

En el conjunto de `devtest`

Modelos	NE-EN	EN-NE
Guzmán et al. (2019)	7.6	4.3
este trabajo	14.51	6.58

Los resultados de devtest provienen de modelos que utilizan tamaños de vocabulario de 2500.

Requisitos

torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library

Fairseq se usa para entrenamiento, frase se usa para aprender BPE sobre el corpus, sacremoses para tratar texto en inglés, sacrebleu para calificar los modelos, flask para la interfaz. Para manejar el texto nepalí, utilizamos la biblioteca índica de PNL.

Todas las bibliotecas se pueden instalar usando pip .

Para poder ejecutar la interfaz del traductor, la biblioteca Indic NLP debe clonarse en translator/app/modules/ .

Hay otras bibliotecas como python-docx y lxml utilizadas por los scripts de limpieza.

Preparando al traductor

Después de entrenar un modelo utilizando la implementación fairseq de Transformer, copie el archivo de punto de control a translator/app/models/ y cámbiele el nombre a en-ne.pt o ne-en.pt según la dirección de traducción del archivo de punto de control. Los archivos de puntos de control que dan cuenta de los resultados del informe están disponibles aquí. Copie los archivos .pt a translator/app/models .

Una vez establecidos los requisitos y modelos, ejecute python app/app.py desde el directorio translator .

Los detalles sobre la capacitación en sí se pueden obtener en el repositorio o la documentación de Fairseq. El github de FLORES también es útil.

Traducciones de muestra

NE-EN

Tipo	Oración
Fuente	ठूला गोदामहरुले, यस क्षेत्रका साना साना Más información भण्डार गर्न थाले ।
Referencia	Grandes almacenes comenzaron a almacenar en almacenes calzado, elaborado por muchos pequeños fabricantes de la zona.
Sistema	Grandes almacenes comenzaron a almacenar calzado elaborado por pequeños productores de esta zona.

Tipo	Oración
Fuente	प्राविधिक लेखकहरूले पनि व्यापारिक, पेशागत वा घरेलु प्रयोगका लागि विभिन्न कार्यविधिहरूका बारे लेख्दछन्।
Referencia	Los redactores técnicos también escriben diversos procedimientos para uso comercial, profesional o doméstico.
Sistema	Los autores técnicos también escriben sobre diversos procedimientos para uso comercial, profesional o doméstico.

EN-NE

Tipo	Oración
Fuente	El lenguaje de Obama es sofisticado, Putin habla directamente y prefiere utilizar la puntuación y las estadísticas, pero ambos tienen la misma capacidad para ganarse el corazón de la audiencia.
Referencia	ओबामाको भाषा परिस्कृत छ , पुटिन ठाडो भाषामा तुक्का र तथ्याङ्क प्रयोग गरेर बोल्न रुचाउँछन् , तर दुवैसँग श्रोताको हृदयलाई तरंगित गर्ने समान क्षमता छ ।
Sistema	ओबामाको भाषा परिस्कृत छ, पुटिन प्रत्यक्ष रूपमा वाचन र तथ्याङ्क प्रयोग गर्न प्राथमिकता दिन्छ , तर दुवै श्रोताको मुटु जित्न एउटै क्षमता छ ।

Tipo	Oración
Fuente	Litti Chokha se prepara rellenando una masa con harina de trigo sarraceno mezclada con varias especias y tostándola al fuego, y se sirve con pasta de especias.
Referencia	लिट्टी चोखा - लिट्टी जुन आंटा भित्र सत्तू तथा मसला हालेर आगोमा सेकेर बनाईन्छ, को चोखे सँग पस्किइन्छ ।
Sistema	लोती चोखोका विभिन्न मसला मिसाएर बकवाहेट फूल मिसाएर तयार पारिन्छ र यसलाई आगोमा टाँस्न र मसला टाँस्ने सेवा गरिन्छ ।