تنزيل persian spell checker kenlm - تنزيل رمز المصدر persian spell checker kenlm

persian spell checker kenlm

كود الذكاء الاصطناعي

1.0.0

تنزيل

تنزيل برنامج Wiki-Dump الفارسي وتدريب Kenlm والمدقق الإملائي

في هذا المشروع، أقوم بتنزيل مجموعة بيانات wiki-dump الفارسية من ويكيبيديا، ثم أقوم بمعالجتها مسبقًا وأخيرًا تدريب المدقق الإملائي ونموذج لغة kenlm.

التنزيل والمعالجة المسبقة لـ Wiki-Dump الفارسية

تحميل ويكي-Dump الفارسية

قم بتنزيل تفريغ wiki الفارسي باستخدام البرنامج النصي bash التالي. يبلغ حجم مجموعة البيانات حوالي 1 جيجا، لذا تحلى بالصبر!

ملحوظة : إذا كنت تعيش في إيران، فمن المؤكد أنك تفعل ذلك لأن هذا الريبو مخصص للغة الفارسية، قم بتشغيل VPN الخاص بك!

 language=fa
bash download_wiki_dump.sh $language

استخراج النص

استخراج وتحويل تنسيق .bz2 إلى .txt . باستخدام wikiextractor يتم تنظيف التفريغ وتحويل ملف .txt . قد يستغرق هذا بعض الوقت أيضًا!

 n_processors=16
bash extract_and_clean_wiki_dump.sh ${language}wiki-latest-pages-articles.xml.bz2 $n_processors

ملاحظة : في حالة حدوث خطأ في pdb، قم بتغيير expand_templates=True إلى expand_templates=False وهو وسيطة إدخال لوظيفة clean_text الموجودة في السطر 948 تقريبًا من wikiextractor/wikiextractor/extract.py.

المعالجة المسبقة والتطبيع

يجب معالجة النص الناتج مسبقًا وتطبيعه لإزالة النصوص غير الضرورية مثل "[doc]" وتطبيع النصوص باستخدام مكتبات hazm و nltk !

متطلبات تثبيت بايثون:

تثبيت المتطلبات:

 pip install -r requirements.txt

المعالجة المسبقة والتطبيع

المعالجة الرئيسية. قد يستغرق الأمر بعض الوقت!

 python preprocess_wiki_dump.py fawiki-latest-pages-articles.txt
python cleaner.py

الحصول على عدد الكلمات من الجسم

باستخدام هذا البرنامج النصي سيتم حساب كلمات المجموعة. قبل ذلك، سيتم تطبيق بعض التطبيع والتنظيف الإضافي على الكلمات أيضًا.

 sudo apt-get install pv
bash get_counts.sh

احصل على المفردات الأكثر تكرارًا في SymSpell[المدقق الإملائي]

يحتاج Symspell إلى ملف نصي يحتوي على المفردات وحالات حدوثها. يجب تقليص عدد fa_wiki.counts الذي تم إنشاؤه في قسم Get the word-count of the corpus بحيث يحتوي فقط على 80 ألف كلمة متكررة ومنع الكلمات التي لها تكرار أقل من 50.

 python get_spellchecker_top_vocabs.py --top-vocabs 80000 --ignore-less 25 --output wiki_fa_80k.txt

سيمسبل

Symspell هو مدقق إملائي بسيط. أولاً، قم بتثبيته من pypi باستخدام الأمر التالي:

 pip install symspellpy

لاستخدامه، ما عليك سوى إنشاء مثيل له باستخدام قاموس المفردات الذي أنشأناه في قسم Get top frequent vocabs for SymSpell

 # import symspell
from symspellpy import SymSpell , Verbosity

# instantiate it
sym_spell = SymSpell ( max_dictionary_edit_distance = 2 , prefix_length = 7 )
dictionary_path = "wiki_fa_80k.txt"
sym_spell . load_dictionary ( dictionary_path , term_index = 0 , count_index = 1 )

# input sample:
input_term = "اهوار"  # misspelling of "اهواز" It's a city name!

# lookup the dictionary
suggestions = sym_spell . lookup ( input_term , Verbosity . ALL , max_edit_distance = 2 )
# display suggestion term, term frequency, and edit distance
for suggestion in suggestions [: 5 ]:
    print ( suggestion )

الإخراج على النحو التالي. كما ترون تم اختيار اهواز بشكل صحيح!

 اهواز, 1, 4692
ادوار, 1, 1350
الوار, 1, 651
انوار, 1, 305
اهورا, 1, 225

احصل على المفردات الأكثر تكرارا لKenLM

باستخدام التعليمة البرمجية التالية، تتم كتابة العينات الأكثر شيوعًا والتي يبلغ عددها 80 ألفًا إلى kenlm_vocabs.txt . ولجعلها أسرع، يتم تجاهل المفردات التي تحتوي على أقل من 25 تكرارًا!

 python get_kenlm_top_vocabs.py --top-vocabs 80000 --ignore-less 25 --output wiki_fa_kenlm_vocabs.txt

تدريب نموذج KenLM

قم أولاً بتثبيت متطلبات KenLM باستخدام الأوامر التالية:

 sudo apt-get update
sudo apt-get install cmake build-essential libssl-dev libeigen3-dev libboost-all-dev zlib1g-dev libbz2-dev liblzma-dev -y

ثم clone وأنشئ وحدات c++:

 git clone https://github.com/kpu/kenlm.git
cd kenlm
mkdir -p build
cd build
cmake ..
make -j 4

إذا سارت الأمور على ما يرام، يمكنك العثور على lmplz و build_binary ضمن الدليل ./kenlm/build/bin . أخيرًا، قم بتدريب نموذج لغة kenlm باستخدام نص bash التالي.

 bash train_kenlm.sh -o 4 -l fa

ملحوظة: تم إنشاء الوحدة الثنائية أيضًا لأنها أسرع بكثير من الوحدة غير الثنائية.

استنتاج كينلم على بيثون

تثبيت كينلم:

 pip install https://github.com/kpu/kenlm/archive/master.zip

كيفية استخدامه:

 import kenlm

model = kenlm.Model('fa_wiki.binary')
print("score: ", model.score('کشور ایران شهر تهران', bos=True, eos=True))
print("score: ", model.score('کشور تهران شهر ایران', bos=True, eos=True))
# score:  -11.683658599853516
# score:  -15.572178840637207

لمزيد من الأمثلة راجع الرابط التالي: https://github.com/kpu/kenlm/blob/master/python/example.py

مراجع

https://github.com/tiefenauer/wiki-lm
https://towardsdatascience.com/pre-processing-a-wikipedia-dump-for-nlp-model-training-a-write-up-3b9176fdf67
https://github.com/kpu/kenlm

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2024-12-30
الحجم 50MB
من Github

تطبيقات ذات صلة

Iptv checker

2024-11-15
GitHub sgrebnov/cordova plugin background download

2024-11-05
fReE Daily Monopoly Go Dice Generator 2024 New Updated With Daily Checker

2024-11-03
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
لعبة المدقق الشجاع

2023-05-24
التعويذة الأخيرة

2022-08-06

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل