persian spell checker kenlmダウンロード - persian spell checker kenlmソースコードダウンロード

persian spell checker kenlm

AI ソースコード

1.0.0

ダウンロード

ペルシア語 Wiki ダンプ、Train Kenlm、およびスペルチェッカーをダウンロード

このプロジェクトでは、ペルシア語のウィキダンプデータセットをウィキペディアからダウンロードし、前処理して、最後にスペルチェッカーと kenlm 言語モデルをトレーニングします。

ペルシア語 Wiki-Dump のダウンロードと前処理

ペルシア語 wiki ダンプをダウンロード

次の bash スクリプトを使用して、ペルシア語の wiki ダンプをダウンロードします。データセットのサイズは約 1G なので、しばらくお待ちください。

注: このリポジトリはペルシア語用であるため、イランに住んでいる場合は、VPN をオンにしてください。

 language=fa
bash download_wiki_dump.sh $language

TXTを抽出する

.bz2形式を抽出して.txtに変換します。 wikiextractor使用すると、ダンプがクリーンアップされ、 .txtファイルに変換されます。こちらも時間がかかるかも知れません！

 n_processors=16
bash extract_and_clean_wiki_dump.sh ${language}wiki-latest-pages-articles.xml.bz2 $n_processors

注: PDB エラーが発生した場合は、 expand_templates=True変数をexpand_templates=Falseに変更します。これは、wikiextractor/wikiextractor/extract.py の 948 行目あたりにあるclean_text関数への入力引数です。

前処理と正規化

出力テキストは前処理および正規化して、「[doc]」などの不要なテキストを削除し、 hazmおよびnltkライブラリを使用してテキストを正規化する必要があります。

Python のインストール要件:

要件をインストールします。

 pip install -r requirements.txt

前処理と正規化

メイン処理。少し時間がかかるかもしれません！

 python preprocess_wiki_dump.py fawiki-latest-pages-articles.txt
python cleaner.py

コーパスの単語数を取得する

このスクリプトを使用すると、コーパスの単語がカウントされます。その前に、追加の正規化とクリーニングも単語に適用されます。

 sudo apt-get install pv
bash get_counts.sh

SymSpell[スペルチェッカー] でよく使われる単語を取得する

Symspell には、語彙とその出現を含むテキストファイルが必要です。 Get the word-count of the corpusセクションで作成したfa_wiki.countsは、頻度の高い上位 80,000 単語のみを含み、頻度が 50 未満の単語が含まれないようにトリミングする必要があります。

 python get_spellchecker_top_vocabs.py --top-vocabs 80000 --ignore-less 25 --output wiki_fa_80k.txt

シンスペル

Symspell はシンプルなスペルチェッカーです。まず、次のコマンドを使用して pypi からインストールします。

 pip install symspellpy

これを使用するには、 Get top frequent vocabs for SymSpell作成した語彙辞書を使用してインスタンスを作成するだけです。

 # import symspell
from symspellpy import SymSpell , Verbosity

# instantiate it
sym_spell = SymSpell ( max_dictionary_edit_distance = 2 , prefix_length = 7 )
dictionary_path = "wiki_fa_80k.txt"
sym_spell . load_dictionary ( dictionary_path , term_index = 0 , count_index = 1 )

# input sample:
input_term = "اهوار"  # misspelling of "اهواز" It's a city name!

# lookup the dictionary
suggestions = sym_spell . lookup ( input_term , Verbosity . ALL , max_edit_distance = 2 )
# display suggestion term, term frequency, and edit distance
for suggestion in suggestions [: 5 ]:
    print ( suggestion )

出力は次のとおりです。ご覧のとおり、 اهوازが正しく選択されています。

 اهواز, 1, 4692
ادوار, 1, 1350
الوار, 1, 651
انوار, 1, 305
اهورا, 1, 225

KenLM で頻繁に使用される単語を取得する

次のコードを使用すると、上位の最も頻繁に使用される 80K サンプルがkenlm_vocabs.txtに書き込まれます。高速化するために、出現回数が 25 未満の語彙は破棄されます。

 python get_kenlm_top_vocabs.py --top-vocabs 80000 --ignore-less 25 --output wiki_fa_kenlm_vocabs.txt

KenLM モデルを訓練する

まず、次のコマンドを使用して KenLM 要件をインストールします。

 sudo apt-get update
sudo apt-get install cmake build-essential libssl-dev libeigen3-dev libboost-all-dev zlib1g-dev libbz2-dev liblzma-dev -y

次に、C++ モジュールをcloneて作成します。

 git clone https://github.com/kpu/kenlm.git
cd kenlm
mkdir -p build
cd build
cmake ..
make -j 4

すべてがうまくいけば、 ./kenlm/build/bin /bin ディレクトリにlmplzとbuild_binary見つかります。最終的には、次の bash スクリプトを使用してkenlm言語モデルをトレーニングします。

 bash train_kenlm.sh -o 4 -l fa

注: バイナリモジュールは、バイナリ化されていないモジュールよりもはるかに高速であるため、バイナリモジュールも作成されます。

Python での Kenlm 推論

KenLm をインストールします。

 pip install https://github.com/kpu/kenlm/archive/master.zip

使用方法:

 import kenlm

model = kenlm.Model('fa_wiki.binary')
print("score: ", model.score('کشور ایران شهر تهران', bos=True, eos=True))
print("score: ", model.score('کشور تهران شهر ایران', bos=True, eos=True))
# score:  -11.683658599853516
# score:  -15.572178840637207

その他の例については、次のリンクを参照してください: https://github.com/kpu/kenlm/blob/master/python/example.py

参考文献

https://github.com/tiefenauer/wiki-lm
https://towardsdatascience.com/pre-processing-a-wikipedia-dump-for-nlp-model-training-a-write-up-3b9176fdf67
https://github.com/kpu/kenlm

拡大する

追加情報