Tradução automática neural (NMT) no par de idiomas nepalês-inglês. Você pode experimentar aqui.
Os dados paralelos que preparamos podem ser encontrados aqui.
O diretório data_cleaning
contém os scripts que implementam os métodos de limpeza discutidos no relatório.
O diretório translator
possui uma interface funcional para o tradutor.
No final de 2019, foram realizados alguns trabalhos adicionais no âmbito do projeto, aqui descrito. Os pontos de verificação do modelo relatados no artigo estão aqui. Os dados de treinamento têm duas partes: a) dados paralelos reais, b) dados paralelos sintéticos
Em fevereiro de 2021, havia alguns problemas de compatibilidade entre os arquivos de modelo e as versões mais recentes dos pacotes. Para corrigir isso, use as seguintes versões dos pacotes: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
.
Encontre os resultados mais recentes no artigo vinculado acima.
As pontuações BLEU de 7,6 e 4,3 (para métodos supervisionados) que Guzman et al relatam em seu artigo estão em seu conjunto devtest
. Na verdade, há mais dois conjuntos que eles lançam: o conjunto de validação chamado dev
set e o conjunto test
lançado recentemente (outubro de 2019). No relatório vinculado acima, relatamos apenas as pontuações do conjunto dev
. Reproduzimos seu modelo usando sua implementação para pontuá-lo. Aqui relatamos as pontuações nos conjuntos dev
e devtest
.
dev
Modelos | Tamanho do corpo | NE-EN | EN-NE |
---|---|---|---|
Guzman et al. (2019) | 564 mil | 5.24 | 2,98 |
Este trabalho | 150 mil | 12.26 | 6,0 |
devtest
Modelos | NE-EN | EN-NE |
---|---|---|
Guzman et al. (2019) | 7.6 | 4.3 |
Este trabalho | 14.51 | 6,58 |
Os resultados no devtest
são de modelos que usam tamanhos de vocabulário de 2.500.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq é usado para treinamento, sentença é usada para aprender BPE no corpus, sacremoses para tratar texto em inglês, sacrebleu para pontuar os modelos, flask para a interface. Para lidar com o texto nepalês, usamos a Biblioteca Índica de PNL.
Todas as bibliotecas podem ser instaladas usando pip
.
Para poder executar a interface do tradutor, a Biblioteca Indic NLP precisa ser clonada em translator/app/modules/
.
Existem outras bibliotecas como python-docx
e lxml
usadas pelos scripts de limpeza.
Depois de treinar um modelo usando a implementação fairseq do Transformer, copie o arquivo do ponto de verificação para translator/app/models/
e renomeie-o en-ne.pt
ou ne-en.pt
com base na direção de tradução do arquivo do ponto de verificação. Os arquivos de checkpoint que realizam os resultados no relatório estão disponíveis aqui. Copie os arquivos .pt
para translator/app/models
.
Depois que os requisitos e modelos estiverem definidos, execute python app/app.py
no diretório translator
.
Detalhes sobre o treinamento em si podem ser obtidos no repositório ou na documentação do fairseq. O github FLORES também é útil.
Tipo | Frase |
---|---|
Fonte | ठूला गोदामहरुले, यस क्षेत्रका साना साना धेरै निर्माता हरु द्वारा बनाईएका जुत्ताहरु भण्डार गर्न थाले । |
Referência | Grandes armazéns passaram a estocar calçados em armazéns, fabricados por diversos pequenos fabricantes da região. |
Sistema | Grandes armazéns passaram a armazenar calçados confeccionados por pequenos produtores desta região. |
Tipo | Frase |
---|---|
Fonte | प्राविधिक लेखकहरूले पनि व्यापारिक, पेशागत वा घरेलू बारे लेख्दछन्। |
Referência | Os redatores técnicos também escrevem vários procedimentos para uso comercial, profissional ou doméstico. |
Sistema | Autores técnicos também escrevem sobre diversos procedimentos para uso comercial, profissional ou doméstico. |
Tipo | Frase |
---|---|
Fonte | A linguagem de Obama é sofisticada, Putin fala diretamente e prefere usar pontuação e estatísticas, mas ambos têm a mesma capacidade de conquistar o coração do público. |
Referência | ओबामाको भाषा परिस्कृत छ , पुटिन ठाडो भाषामा तुक्का र तथ्याङ्क प्रयोग गरेर बोल्न रुचाउँछन् , तर दुवैसँग श्रोताको हृदयलाई तरंगित गर्ने समान क्षमता छ । |
Sistema | ओबामाको भाषा परिस्कृत छ , पुटिन प्रत्यक्ष रूपमा , तर दुवै श्रोताको मुटु जित्न एउटै क्षमता छ । |
Tipo | Frase |
---|---|
Fonte | Litti Chokha é preparado recheando a massa com farinha de trigo sarraceno misturada com temperos diversos e torrando-a no fogo, e é servido com pasta de temperos. |
Referência | लिट्टी चोखा - लिट्टी जुन आंटा भित्र सत्तू तथा मसला हालेर आगोमा सेकेर बनाईन्छ , को चोखे सँग पस्किइन्छ । |
Sistema | लोती चोखोका विभिन्न मसला मिसाएर बकवाहेट फूल मिसाएर तयार पारिन्छ र यसलाई आगोमा टाँस्न र मसला टाँस्ने सेवा गरिन्छ । |
Se você usar alguma parte deste projeto em seu trabalho, cite este artigo.
Para a conclusão do sexto semestre do programa de Ciência da Computação na Universidade de Katmandu. Julho de 2019.