pybo
v0.8.0
bo 將藏文文字標記為單字。
需要安裝Python3。
python3 -m pip install pybo
drupchen@drupchen: ~ $ bo tok-string " ༄༅། །རྒྱ་གར་སྐད་དུ། བོ་དྷི་སཏྭ་ཙརྻ་ཨ་བ་ཏ་ར། བོད་སྐད་དུ། བྱང་ཆུབ་སེམས་དཔའི་སྤྱོད་པ་ལ་འཇུག་པ། །
སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ། །བདེ་གཤེགས་ཆོས་ཀྱི་སྐུ་མངའ་སྲས་བཅས་དང༌། །ཕྱག་འོས་ཀུན་ལའང་གུས་པར་ཕྱག་འཚལ་ཏེ། །བདེ་གཤེགས་
སྲས་ཀྱི་སྡོམ་ལ་འཇུག་པ་ནི། །ལུང་བཞིན་མདོར་བསྡུས་ནས་ནི་བརྗོད་པར་བྱ། ། "
Loading Trie... (2s.)
༄༅།_། རྒྱ་གར་ སྐད་ དུ །_ བོ་ དྷི་ སཏྭ་ ཙརྻ་ ཨ་བ་ ཏ་ ར །_ བོད་སྐད་ དུ །_ བྱང་ཆུབ་ སེམས་དཔ འི་ སྤྱོད་པ་ ལ་ འཇུག་པ །_། སངས་རྒྱས་ དང་ བྱང་ཆུབ་
སེམས་དཔའ་ ཐམས་ཅད་ ལ་ ཕྱག་ འཚལ་ ལོ །_། བདེ་གཤེགས་ ཆོས་ ཀྱི་ སྐུ་ མངའ་ སྲས་ བཅས་ དང༌ །_། ཕྱག་འོས་ ཀུན་ ལ འང་ གུས་པ ར་ ཕྱག་ འཚལ་
ཏེ །_། བདེ་གཤེགས་ སྲས་ ཀྱི་ སྡོམ་ ལ་ འཇུག་པ་ ནི །_། ལུང་ བཞིན་ མདོར་བསྡུས་ ནས་ ནི་ བརྗོད་པ ར་ བྱ །_།
用於標記目錄中檔案清單的命令:
bo tok <path-to-directory>
例如,使用下列內容標記目錄./document/
中的檔案text.txt
:
བཀྲ་ཤི་ས་བདེ་ལེགས་ཕུན་སུམ་ཚོགས། །རྟག་ཏུ་བདེ་བ་ཐོབ་པར་ཤོག། །
我使用命令:
$ bo tok ./document/
....在目錄./document_pybo
中建立一個text.txt
文件,其中包含:
བཀྲ་ ཤི་ ས་ བདེ་ལེགས་ ཕུན་སུམ་ ཚོགས །_། རྟག་ ཏུ་ བདེ་བ་ ཐོབ་པ ར་ ཤོག །_།
$ bo kakha to-sort.txt
預期輸入是 .txt 檔案中每行一個單字或一個條目。該文件將被覆蓋。
bo fnr <in-dir> <regex-file> -o <out-dir> -t <tag>
-o
和-t
是可選的
文字檔案應該是 UTF-8 純文字檔案。正規表示式應採用以下格式:
<find-pattern><tab>-<tab><replace-pattern>
我們始終對引入新功能、工具整合和測試解決方案的合作持開放態度。
非常感謝支持pybo發展的公司和組織,特別是:
third_party/rules.txt
取自 tibetan-collation。 首先克隆這個倉庫。創建虛擬環境並激活它。然後安裝依賴項
$ pip install -e .
$ pip install -r requirements-dev.txt
接下來,透過建立預提交 git hook 來設定預提交
$ pre-commit install
提交訊息請遵循 augular 提交訊息格式。我們設定了 python-semantic-release 以根據提交訊息自動發布 pybo 套件。
就這樣,享受貢獻吧?
Python 程式碼版權所有 (C) 2019 Esukhia,在 Apache 2 下提供。
貢獻者: