JamSpell عبارة عن مكتبة للتدقيق الإملائي تحتوي على الميزات التالية:
مثال كولاب
jamspell.com - تحقق من إصدار jamspell الجديد بالميزات التالية
en, ru, de, fr, it, es, tr, uk, pl, nl, pt, hi, no
Java, C#, Ruby
المدمجأخطاء | أعلى 7 أخطاء | معدل الإصلاح | أعلى 7 معدل إصلاح | مكسور | سرعة (كلمة / ثانية) | |
JamSpell | 3.25% | 1.27% | 79.53% | 84.10% | 0.64% | 4854 |
نورفيج | 7.62% | 5.00% | 46.58% | 66.51% | 0.69% | 395 |
هونسبيل | 13.10% | 10.33% | 47.52% | 68.56% | 7.14% | 163 |
دمية | 13.14% | 13.14% | 0.00% | 0.00% | 0.00% | - |
تم تدريب النموذج على 300 ألف جملة ويكيبيديا + 300 ألف جملة إخبارية (باللغة الإنجليزية). تم استخدام 95% للتدريب، و5% للتقييم. تم استخدام نموذج الأخطاء لإنشاء نص به أخطاء من النص الأصلي. تمت مقارنة مصحح JamSpell مع مصحح Norvig وHunspell ومصحح وهمي (بدون تصحيحات).
استخدمنا المقاييس التالية:
للتأكد من أن نموذجنا ليس متناسبًا مع ويكيبيديا + الأخبار، قمنا بمراجعته في نص "مغامرات شيرلوك هولمز":
أخطاء | أعلى 7 أخطاء | معدل الإصلاح | أعلى 7 معدل إصلاح | مكسور | السرعة (كلمة في الثانية) | |
JamSpell | 3.56% | 1.27% | 72.03% | 79.73% | 0.50% | 5524 |
نورفيج | 7.60% | 5.30% | 35.43% | 56.06% | 0.45% | 647 |
هونسبيل | 9.36% | 6.44% | 39.61% | 65.77% | 2.95% | 284 |
دمية | 11.16% | 11.16% | 0.00% | 0.00% | 0.00% | - |
مزيد من التفاصيل حول الاستنساخ متوفرة في قسم "القطار".
قم بتثبيت swig3
(عادةً ما يكون موجودًا في مدير حزم التوزيعة لديك)
تثبيت jamspell
pip install jamspell
قم بتنزيل نموذج اللغة أو تدريبه
import jamspell
corrector = jamspell . TSpellCorrector ()
corrector . LoadLangModel ( 'en.bin' )
corrector . FixFragment ( 'I am the begt spell cherken!' )
# u'I am the best spell checker!'
corrector . GetCandidates ([ 'i' , 'am' , 'the' , 'begt' , 'spell' , 'cherken' ], 3 )
# (u'best', u'beat', u'belt', u'bet', u'bent', ... )
corrector . GetCandidates ([ 'i' , 'am' , 'the' , 'begt' , 'spell' , 'cherken' ], 5 )
# (u'checker', u'chicken', u'checked', u'wherein', u'coherent', ...)
أضف jamspell
في مشروعك
# include < jamspell/spell_corrector.hpp >
int main ( int argc, const char ** argv) {
NJamSpell::TSpellCorrector corrector;
corrector. LoadLangModel ( " model.bin " );
corrector. FixFragment ( L" I am the begt spell cherken! " );
// "I am the best spell checker!"
corrector. GetCandidates ({ L" i " , L" am " , L" the " , L" begt " , L" spell " , L" cherken " }, 3 );
// "best", "beat", "belt", "bet", "bent", ... )
corrector. GetCandidates ({ L" i " , L" am " , L" the " , L" begt " , L" spell " , L" cherken " }, 3 );
// "checker", "chicken", "checked", "wherein", "coherent", ... )
return 0 ;
يمكنك إنشاء ملحقات للغات أخرى باستخدام البرنامج التعليمي swig. ملف واجهة swig هو jamspell.i
. نرحب بطلبات السحب مع البرامج النصية للبناء.
قم بتثبيت cmake
استنساخ وبناء Jamspell (يتضمن خادم http):
git clone https://github.com/bakwc/JamSpell.git
cd JamSpell
mkdir build
cd build
cmake ..
./web_server/web_server en.bin localhost 8080
$ curl " http://localhost:8080/fix?text=I am the begt spell cherken "
I am the best spell checker
$ curl -d " I am the begt spell cherken " http://localhost:8080/fix
I am the best spell checker
curl " http://localhost:8080/candidates?text=I am the begt spell cherken "
# or
curl -d " I am the begt spell cherken " http://localhost:8080/candidates
"results" : [
"candidates" : [
"best" ,
"beat" ,
"belt" ,
"bet" ,
"bent" ,
"beet" ,
] ,
"len" : 4 ,
"pos_from" : 9
} ,
"candidates" : [
"checker" ,
"chicken" ,
"checked" ,
"wherein" ,
"coherent" ,
"cheered" ,
] ,
"len" : 7 ,
"pos_from" : 20
هنا pos_from
- موضع الحرف الأول للكلمة التي بها خطأ إملائي، len
- الكلمة التي بها خطأ إملائي len
لتدريب النموذج المخصص تحتاج إلى:
قم بتثبيت cmake
استنساخ وبناء Jamspell:
git clone https://github.com/bakwc/JamSpell.git
cd JamSpell
mkdir build
cd build
cmake ..
قم بإعداد ملف نصي utf-8 يحتوي على جمل للتدريب عليها (على سبيل المثال، sherlockholmes.txt
) وملف آخر بأبجدية اللغة (على سبيل المثال، alphabet_en.txt
نموذج القطار:
./main/jamspell train ../test_data/alphabet_en.txt ../test_data/sherlockholmes.txt model_sherlock.bin
: python evaluate/evaluate.py -a alphabet_file.txt -jsp your_model.bin -mx 50000 your_test_data.txt
لإنشاء بيانات التدريب/الاختبار. وهو يدعم ملفات txt وتنسيق Leipzig Corpora Collection وكتب fb2. وهنا بعض النماذج البسيطة. لقد تدربوا على 300 ألف خبر + 300 ألف جملة ويكيبيديا. ونحن نوصي بشدة بتدريب النموذج الخاص بك، على الأقل على بضعة ملايين من الجمل لتحقيق جودة أفضل. انظر قسم القطار أعلاه.