تنزيل JamSpell - تنزيل كود مصدر JamSpell

JamSpell

ج/ج++

v0.0.12

تنزيل

JamSpell

JamSpell عبارة عن مكتبة للتدقيق الإملائي تحتوي على الميزات التالية:

دقيق - يأخذ في الاعتبار الكلمات المحيطة (السياق) من أجل تصحيح أفضل
سريع - بالقرب من 5 آلاف كلمة في الثانية
متعدد اللغات - إنه مكتوب بلغة C++ ومتوفر للعديد من اللغات مع روابط swig

مثال كولاب

JamSpellPro

jamspell.com - تحقق من إصدار jamspell الجديد بالميزات التالية

تحسين الدقة (نموذج تصنيف مرشحي أشجار القرار المعززة للتدرج catboost)
انشقاقات الكلمات المدمجة
نماذج مدربة مسبقاً للعديد من اللغات (الصغيرة، المتوسطة، الكبيرة) من أجل:
en, ru, de, fr, it, es, tr, uk, pl, nl, pt, hi, no
القدرة على إضافة الكلمات / الجمل في وقت التشغيل
الضبط الدقيق / التدريب الإضافي
تحسين الذاكرة لتدريب النماذج الكبيرة
دعم القاموس الثابت
دعم Java, C#, Ruby المدمج
دعم ويندوز

محتوى

المعايير
الاستخدام
- بايثون
- سي ++
- لغات أخرى
- واجهة برمجة تطبيقات HTTP
يدرب

المعايير

	أخطاء	أعلى 7 أخطاء	معدل الإصلاح	أعلى 7 معدل إصلاح	مكسور	سرعة (كلمة / ثانية)
JamSpell	3.25%	1.27%	79.53%	84.10%	0.64%	4854
نورفيج	7.62%	5.00%	46.58%	66.51%	0.69%	395
هونسبيل	13.10%	10.33%	47.52%	68.56%	7.14%	163
دمية	13.14%	13.14%	0.00%	0.00%	0.00%	-

تم تدريب النموذج على 300 ألف جملة ويكيبيديا + 300 ألف جملة إخبارية (باللغة الإنجليزية). تم استخدام 95% للتدريب، و5% للتقييم. تم استخدام نموذج الأخطاء لإنشاء نص به أخطاء من النص الأصلي. تمت مقارنة مصحح JamSpell مع مصحح Norvig وHunspell ومصحح وهمي (بدون تصحيحات).

استخدمنا المقاييس التالية:

الأخطاء - النسبة المئوية للكلمات التي تحتوي على أخطاء بعد معالجة المدقق الإملائي
أهم 7 أخطاء - النسبة المئوية للكلمات المفقودة في أفضل 7 مرشحات
معدل الإصلاح - النسبة المئوية للكلمات التي بها أخطاء والتي تم إصلاحها بواسطة المدقق الإملائي
أعلى 7 معدل إصلاح - النسبة المئوية للكلمات التي تحتوي على أخطاء والتي تم إصلاحها بواسطة أحد المرشحين السبعة الأوائل
معطلة - النسبة المئوية للكلمات غير الخاطئة التي تم كسرها بواسطة المدقق الإملائي
السرعة - عدد الكلمات في الثانية

للتأكد من أن نموذجنا ليس متناسبًا مع ويكيبيديا + الأخبار، قمنا بمراجعته في نص "مغامرات شيرلوك هولمز":

	أخطاء	أعلى 7 أخطاء	معدل الإصلاح	أعلى 7 معدل إصلاح	مكسور	السرعة (كلمة في الثانية)
JamSpell	3.56%	1.27%	72.03%	79.73%	0.50%	5524
نورفيج	7.60%	5.30%	35.43%	56.06%	0.45%	647
هونسبيل	9.36%	6.44%	39.61%	65.77%	2.95%	284
دمية	11.16%	11.16%	0.00%	0.00%	0.00%	-

مزيد من التفاصيل حول الاستنساخ متوفرة في قسم "القطار".

الاستخدام

بايثون

قم بتثبيت swig3 (عادةً ما يكون موجودًا في مدير حزم التوزيعة لديك)
تثبيت jamspell :

pip install jamspell

قم بتنزيل نموذج اللغة أو تدريبه
استخدمه:

 import jamspell

corrector = jamspell . TSpellCorrector ()
corrector . LoadLangModel ( 'en.bin' )

corrector . FixFragment ( 'I am the begt spell cherken!' )
# u'I am the best spell checker!'

corrector . GetCandidates ([ 'i' , 'am' , 'the' , 'begt' , 'spell' , 'cherken' ], 3 )
# (u'best', u'beat', u'belt', u'bet', u'bent', ... )

corrector . GetCandidates ([ 'i' , 'am' , 'the' , 'begt' , 'spell' , 'cherken' ], 5 )
# (u'checker', u'chicken', u'checked', u'wherein', u'coherent', ...)

سي ++

أضف jamspell contrib في مشروعك
استخدمه:

# include < jamspell/spell_corrector.hpp >

int main ( int argc, const char ** argv) {

    NJamSpell::TSpellCorrector corrector;
    corrector. LoadLangModel ( " model.bin " );

    corrector. FixFragment ( L" I am the begt spell cherken! " );
    // "I am the best spell checker!"

    corrector. GetCandidates ({ L" i " , L" am " , L" the " , L" begt " , L" spell " , L" cherken " }, 3 );
    // "best", "beat", "belt", "bet", "bent", ... )

    corrector. GetCandidates ({ L" i " , L" am " , L" the " , L" begt " , L" spell " , L" cherken " }, 3 );
    // "checker", "chicken", "checked", "wherein", "coherent", ... )
    return 0 ;
}

لغات أخرى

يمكنك إنشاء ملحقات للغات أخرى باستخدام البرنامج التعليمي swig. ملف واجهة swig هو jamspell.i . نرحب بطلبات السحب مع البرامج النصية للبناء.

واجهة برمجة تطبيقات HTTP

قم بتثبيت cmake
استنساخ وبناء Jamspell (يتضمن خادم http):

git clone https://github.com/bakwc/JamSpell.git
cd JamSpell
mkdir build
cd build
cmake ..
make

قم بتنزيل نموذج اللغة أو تدريبه
تشغيل خادم http:

./web_server/web_server en.bin localhost 8080

الحصول على مثال الطلب:

$ curl " http://localhost:8080/fix?text=I am the begt spell cherken "
I am the best spell checker

مثال على طلب ما بعد

$ curl -d " I am the begt spell cherken " http://localhost:8080/fix
I am the best spell checker

مثال المرشح

curl " http://localhost:8080/candidates?text=I am the begt spell cherken "
# or
curl -d " I am the begt spell cherken " http://localhost:8080/candidates

 {
    "results" : [
        {
            "candidates" : [
                "best" ,
                "beat" ,
                "belt" ,
                "bet" ,
                "bent" ,
                "beet" ,
                "beit"
            ] ,
            "len" : 4 ,
            "pos_from" : 9
        } ,
        {
            "candidates" : [
                "checker" ,
                "chicken" ,
                "checked" ,
                "wherein" ,
                "coherent" ,
                "cheered" ,
                "cherokee"
            ] ,
            "len" : 7 ,
            "pos_from" : 20
        }
    ]
}

هنا pos_from - موضع الحرف الأول للكلمة التي بها خطأ إملائي، len - الكلمة التي بها خطأ إملائي len

يدرب

لتدريب النموذج المخصص تحتاج إلى:

قم بتثبيت cmake
استنساخ وبناء Jamspell:

git clone https://github.com/bakwc/JamSpell.git
cd JamSpell
mkdir build
cd build
cmake ..
make

قم بإعداد ملف نصي utf-8 يحتوي على جمل للتدريب عليها (على سبيل المثال، sherlockholmes.txt ) وملف آخر بأبجدية اللغة (على سبيل المثال، alphabet_en.txt )
نموذج القطار:

./main/jamspell train ../test_data/alphabet_en.txt ../test_data/sherlockholmes.txt model_sherlock.bin

لتقييم المدقق الإملائي، يمكنك استخدام البرنامج النصي evaluate/evaluate.py :

python evaluate/evaluate.py -a alphabet_file.txt -jsp your_model.bin -mx 50000 your_test_data.txt

يمكنك استخدام evaluate/generate_dataset.py لإنشاء بيانات التدريب/الاختبار. وهو يدعم ملفات txt وتنسيق Leipzig Corpora Collection وكتب fb2.

تنزيل النماذج

وهنا بعض النماذج البسيطة. لقد تدربوا على 300 ألف خبر + 300 ألف جملة ويكيبيديا. ونحن نوصي بشدة بتدريب النموذج الخاص بك، على الأقل على بضعة ملايين من الجمل لتحقيق جودة أفضل. انظر قسم القطار أعلاه.