네팔어-영어 쌍의 신경 기계 번역(NMT)입니다. 여기서 시도해 볼 수 있습니다.
우리가 준비한 병렬 데이터는 여기에서 찾을 수 있습니다.
data_cleaning
디렉터리에는 보고서에 설명된 정리 방법을 구현하는 스크립트가 있습니다.
translator
디렉토리에는 번역기를 위한 작업 인터페이스가 있습니다.
2019년 말에 여기에 설명된 프로젝트에 따라 몇 가지 추가 작업이 수행되었습니다. 논문에 보고된 모델 체크포인트는 여기에 있습니다. 훈련 데이터는 a) 실제 병렬 데이터, b) 합성 병렬 데이터의 두 부분으로 구성됩니다.
2021년 2월 현재 모델 파일과 최신 버전의 패키지 간에 몇 가지 호환성 문제가 있습니다. 이 문제를 해결하려면 다음 버전의 패키지를 사용하세요: torch-1.3.0
fairseq-0.9.0
portalocker-2.0.0
sacrebleu-1.4.14
sacremoses-0.0.43
sentencepiece-0.1.91
.
위에 링크된 논문에서 최신 결과를 찾아보세요.
Guzman 등이 논문에서 보고한 BLEU 점수 7.6 및 4.3(지도 방법의 경우)은 devtest
세트에 있습니다. 실제로 그들이 출시하는 세트는 두 개 더 있습니다. dev
세트라는 검증 세트와 최근 출시된(2019년 10월) test
세트입니다. 위에 링크된 보고서에서는 dev
세트의 점수만 보고합니다. 우리는 점수를 매기기 위해 구현을 사용하여 모델을 재현합니다. 여기에서는 dev
및 devtest
세트의 점수를 보고합니다.
dev
세트에서모델 | 코퍼스 크기 | 네엔 | EN-NE |
---|---|---|---|
Guzmanet al. (2019) | 564k | 5.24 | 2.98 |
이 작품 | 150,000 | 12.26 | 6.0 |
devtest
세트에서모델 | 네엔 | EN-NE |
---|---|---|
Guzmanet al. (2019) | 7.6 | 4.3 |
이 작품 | 14.51 | 6.58 |
devtest
의 결과는 2500의 어휘 크기를 사용하는 모델에서 나온 것입니다.
torch-1.3.0
fairseq-0.9.0
sentencepiece-0.1.91
sacremoses-0.0.43
sacrebleu-1.4.14
flask
indic_nlp_library
Fairseq는 훈련에 사용되고, 문장은 말뭉치에 대한 BPE를 학습하는 데 사용되며, 영어 텍스트 처리를 위한 sacremose, 모델 점수 매기기 위한 sacrebleu, 인터페이스용 플라스크를 학습하는 데 사용됩니다. 네팔어 텍스트를 처리하기 위해 Indic NLP 라이브러리를 사용합니다.
모든 라이브러리는 pip
사용하여 설치할 수 있습니다.
번역기 인터페이스를 실행하려면 Indic NLP 라이브러리를 translator/app/modules/
에 복제해야 합니다.
정리 스크립트에서 사용되는 python-docx
및 lxml
과 같은 다른 라이브러리가 있습니다.
Transformer의 fairseq 구현을 사용하여 모델을 훈련시킨 후 체크포인트 파일을 translator/app/models/
에 복사하고 체크포인트 파일의 번역 방향에 따라 en-ne.pt
또는 ne-en.pt
로 이름을 바꿉니다. 보고서의 결과를 구현하는 체크포인트 파일은 여기에서 사용할 수 있습니다. .pt
파일을 translator/app/models
에 복사합니다.
요구사항과 모델이 마련되면 translator
디렉터리에서 python app/app.py
실행합니다.
교육 자체에 대한 자세한 내용은 fairseq 저장소 또는 문서에서 확인할 수 있습니다. FLORES github도 유용합니다.
유형 | 문장 |
---|---|
원천 | 그래서 고담후룰레, 미국의 국가 사나 사나 나 니르마타 후루가 바나이카의 주타후루 에다르 가른에게 말했습니다. 그래서 . |
참조 | 대형 창고는 해당 지역의 많은 소규모 제조업체가 만든 창고에 신발을 보관하기 시작했습니다. |
체계 | 이 지역의 소규모 생산자들이 만든 신발을 대형 창고에 보관하기 시작했습니다. |
유형 | 문장 |
---|---|
원천 | 일반 레샤룰레 페니 비아파리크, 페샤가트와 헤렐루 프로그의 라기 위틴 캐리비히로카 바레 레이스. |
참조 | 기술 작가는 또한 비즈니스, 전문가 또는 가정용으로 다양한 절차를 작성합니다. |
체계 | 기술 작성자는 또한 상업적, 전문적 또는 가정용 사용을 위한 다양한 절차에 대해 글을 씁니다. |
유형 | 문장 |
---|---|
원천 | 오바마의 언어는 정교하고 푸틴은 직접 말하고 구두점과 통계를 사용하는 것을 선호하지만 둘 다 청중의 마음을 사로잡는 능력은 동일합니다. |
참조 | 오바마코는 페리스코트, 푸틴 에도 타마마는 투카와 투야크 프로그 게러 볼른을 제압했습니다. Ruchachuchon은 Duvasug Chrotaco Hudylai가 절단되어 Sman Khumta 에 의해 제거되었습니다. |
체계 | 오바마코 대통령은 푸틴 대통령 루파마 와첸과 투야크 프로그 건을 대통령으로 임명했습니다. , 그리고 두 번째로 Schotaco Mutu Jitter는 A Chumta 입니다. |
유형 | 문장 |
---|---|
원천 | 리티초카는 메밀가루에 각종 향신료를 섞은 반죽을 채워 불에 구워낸 뒤 양념장을 곁들여 먹는다. |
참조 | 리티 초차 - 리티 준 안타와 함께 무슬라 할러 아고마 세커 버나이, 그래서 그렇지. 포스킨. |
체계 | Loti Chochoka Wittin Musla Misare Bacvahet Ful Misamer 및 Parinch와 Islai Agoma Tasson R Musla 타스네 세바 가린츠. |
이 프로젝트의 일부를 작업에 사용하는 경우 이 문서를 인용해 주세요.
카트만두 대학교 컴퓨터 과학 프로그램의 6학기를 마치기 위해. 2019년 7월.