pybo
v0.8.0
bo はチベット語のテキストを単語にトークン化します。
Python3 がインストールされている必要があります。
python3 -m pip install pybo
drupchen@drupchen: ~ $ bo tok-string " ༄༅། །རྒྱ་གར་སྐད་དུ། བོ་དྷི་སཏྭ་ཙརྻ་ཨ་བ་ཏ་ར། བོད་སྐད་དུ། བྱང་ཆུབ་སེམས་དཔའི་སྤྱོད་པ་ལ་འཇུག་པ། །
སངས་རྒྱས་དང་བྱང་ཆུབ་སེམས་དཔའ་ཐམས་ཅད་ལ་ཕྱག་འཚལ་ལོ། །བདེ་གཤེགས་ཆོས་ཀྱི་སྐུ་མངའ་སྲས་བཅས་དང༌། །ཕྱག་འོས་ཀུན་ལའང་གུས་པར་ཕྱག་འཚལ་ཏེ། །བདེ་གཤེགས་
སྲས་ཀྱི་སྡོམ་ལ་འཇུག་པ་ནི། །ལུང་བཞིན་མདོར་བསྡུས་ནས་ནི་བརྗོད་པར་བྱ། ། "
Loading Trie... (2s.)
༄༅།_། རྒྱ་གར་ སྐད་ དུ །_ བོ་ དྷི་ སཏྭ་ ཙརྻ་ ཨ་བ་ ཏ་ ར །_ བོད་སྐད་ དུ །_ བྱང་ཆུབ་ སེམས་དཔ འི་ སྤྱོད་པ་ ལ་ འཇུག་པ །_། སངས་རྒྱས་ དང་ བྱང་ཆུབ་
སེམས་དཔའ་ ཐམས་ཅད་ ལ་ ཕྱག་ འཚལ་ ལོ །_། བདེ་གཤེགས་ ཆོས་ ཀྱི་ སྐུ་ མངའ་ སྲས་ བཅས་ དང༌ །_། ཕྱག་འོས་ ཀུན་ ལ འང་ གུས་པ ར་ ཕྱག་ འཚལ་
ཏེ །_། བདེ་གཤེགས་ སྲས་ ཀྱི་ སྡོམ་ ལ་ འཇུག་པ་ ནི །_། ལུང་ བཞིན་ མདོར་བསྡུས་ ནས་ ནི་ བརྗོད་པ ར་ བྱ །_།
ディレクトリ内のファイルのリストをトークン化するコマンド:
bo tok <path-to-directory>
たとえば、ディレクトリ./document/
内のファイルtext.txt
次の内容でトークン化します。
བཀྲ་ཤི་ས་བདེ་ལེགས་ཕུན་སུམ་ཚོགས། །རྟག་ཏུ་བདེ་བ་ཐོབ་པར་ཤོག། །
私は次のコマンドを使用します。
$ bo tok ./document/
...以下を含むディレクトリ./document_pybo
にtext.txt
ファイルを作成します。
བཀྲ་ ཤི་ ས་ བདེ་ལེགས་ ཕུན་སུམ་ ཚོགས །_། རྟག་ ཏུ་ བདེ་བ་ ཐོབ་པ ར་ ཤོག །_།
$ bo kakha to-sort.txt
予期される入力は、.txt ファイル内の 1 行につき 1 つの単語またはエントリです。ファイルは上書きされます。
bo fnr <in-dir> <regex-file> -o <out-dir> -t <tag>
-o
と-t
はオプションです
テキスト ファイルは UTF-8 プレーン テキスト ファイルである必要があります。正規表現は次の形式である必要があります。
<find-pattern><tab>-<tab><replace-pattern>
新しい機能の導入、ツールの統合、ソリューションのテストにおける協力を常に歓迎します。
pybo の開発をサポートしてくださった企業や組織、特に次の方々に多大な感謝を申し上げます。
third_party/rules.txt
は tibetan-collation から取得されます。 まずこのリポジトリのクローンを作成します。仮想環境を作成し、アクティブ化します。次に依存関係をインストールします
$ pip install -e .
$ pip install -r requirements-dev.txt
次に、プリコミット git フックを作成してプリコミットをセットアップします。
$ pre-commit install
コミットメッセージは通常のコミットメッセージ形式に従ってください。コミットメッセージに基づいて pybo パッケージを自動的に公開するように python-semantic-release をセットアップしました。
以上です。貢献をお楽しみください ???
Python コードは Copyright (C) 2019 Esukhia であり、Apache 2 で提供されています。
投稿者: