pybo
v0.8.0
bo는 티베트어 텍스트를 단어로 토큰화합니다.
Python3이 설치되어 있어야 합니다.
python3 -m pip install pybo
drupchen@drupchen: ~ $ bo tok-string " ༄༅། །རྒྱ་གར་སྐད་དུ། བོ་དྷི་སཏྭ་ཙརྻ་ཨ་བ་ཏ་ར། བོད་སྐད་དུ། བྱང་ཆུབ་སེམས་དཔའི་སྤྱོད་པ་ལ་འཇུག་པ། །
སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ། །བདེ་གཤེགས་ཆོས་ཀྱི་སྐུ་མངའ་སྲས་བཅས་དང༌། །ཕྱག་འོས་ཀུན་ལའང་གུས་པར་ཕྱག་འཚལ་ཏེ། །བདེ་གཤེགས་
སྲས་ཀྱི་སྡོམ་ལ་འཇུག་པ་ནི། །ལུང་བཞིན་མདོར་བསྡུས་ནས་ནི་བརྗོད་པར་བྱ། ། "
Loading Trie... (2s.)
༄༅།_། རྒྱ་གར་ སྐད་ དུ །_ བོ་ དྷི་ སཏྭ་ ཙརྻ་ ཨ་བ་ ཏ་ ར །_ བོད་སྐད་ དུ །_ བྱང་ཆུབ་ སེམས་དཔ འི་ སྤྱོད་པ་ ལ་ འཇུག་པ །_། སངས་རྒྱས་ དང་ བྱང་ཆུབ་
སེམས་དཔའ་ ཐམས་ཅད་ ལ་ ཕྱག་ འཚལ་ ལོ །_། བདེ་གཤེགས་ ཆོས་ ཀྱི་ སྐུ་ མངའ་ སྲས་ བཅས་ དང༌ །_། ཕྱག་འོས་ ཀུན་ ལ འང་ གུས་པ ར་ ཕྱག་ འཚལ་
ཏེ །_། བདེ་གཤེགས་ སྲས་ ཀྱི་ སྡོམ་ ལ་ འཇུག་པ་ ནི །_། ལུང་ བཞིན་ མདོར་བསྡུས་ ནས་ ནི་ བརྗོད་པ ར་ བྱ །_།
디렉터리의 파일 목록을 토큰화하는 명령은 다음과 같습니다.
bo tok <path-to-directory>
예를 들어 ./document/
디렉터리에 있는 text.txt
파일을 다음 콘텐츠로 토큰화하려면 다음을 수행하세요.
བཀྲ་ཤི་ས་བདེ་ལེགས་ཕུན་སུམ་ཚོགས། །རྟག་ཏུ་བདེ་བ་ཐོབ་པར་ཤོག། །
나는 다음 명령을 사용합니다.
$ bo tok ./document/
...다음을 포함하는 ./document_pybo
디렉토리에 text.txt
파일을 생성합니다.
བཀྲ་ ཤི་ ས་ བདེ་ལེགས་ ཕུན་སུམ་ ཚོགས །_། རྟག་ ཏུ་ བདེ་བ་ ཐོབ་པ ར་ ཤོག །_།
$ bo kakha to-sort.txt
예상되는 입력은 .txt 파일의 한 줄에 한 단어 또는 항목입니다. 파일을 덮어쓰게 됩니다.
bo fnr <in-dir> <regex-file> -o <out-dir> -t <tag>
-o
및 -t
는 선택 사항입니다.
텍스트 파일은 UTF-8 일반 텍스트 파일이어야 합니다. 정규식은 다음 형식이어야 합니다.
<find-pattern><tab>-<tab><replace-pattern>
우리는 새로운 기능, 도구 통합 및 테스트 솔루션 도입에 항상 협력할 준비가 되어 있습니다.
pybo의 개발을 지원해 주신 기업과 조직에 많은 감사를 드립니다. 특히 다음과 같습니다:
third_party/rules.txt
는 tibetan-collation에서 가져옵니다. 먼저 이 저장소를 복제하세요. 가상 환경을 생성하고 활성화합니다. 그런 다음 종속성을 설치하십시오.
$ pip install -e .
$ pip install -r requirements-dev.txt
다음으로, 사전 커밋 git Hook을 생성하여 사전 커밋을 설정합니다.
$ pre-commit install
커밋 메시지는 augular 커밋 메시지 형식을 따르세요. 커밋 메시지를 기반으로 pybo 패키지를 자동으로 게시하도록 python-semantic-release를 설정했습니다.
그게 다입니다. 기여하는 것을 즐기세요 ???
Python 코드는 Apache 2에서 제공되는 Copyright (C) 2019 Esukhia입니다.
기부자: