تصحيح الإملاء والبحث الغامض: 1 مليون مرة أسرع من خلال خوارزمية تصحيح الإملاء المتماثل
تقلل خوارزمية تصحيح الإملاء المتماثل الحذف من تعقيد جيل المرشح والمواقد للمسافة المعطى Damerau-Levenshtein. إنها ستة أوامر ذات حجم أسرع (من النهج القياسي مع حذف + Transposes + استبدال + إدراج) واللغة المستقلة.
مقابل الخوارزميات الأخرى ، لا يلزم سوى حذف الحذف ، ولا توجد عمليات نقل + استبدال + إدراج. يتم تحويل Transposes + استبدال + إدراج مصطلح الإدخال إلى حذف من مصطلح القاموس. بدائل وإدراج مكلفة وتعتمد على اللغة: على سبيل المثال ، لدى الصينيين 70،000 حرف Unicode Han!
تأتي السرعة من جيل المرشح تحرير الحذف فقط وحصر الحصر .
تحتوي كلمة أحرف 5 أحرف في المتوسط على حوالي 3 ملايين أخطاء إملائية محتملة ضمن أقصى مسافة تحريرها 3 ،
لكن Symspell يحتاج إلى توليد 25 حذف فقط لتغطيةهم جميعًا ، سواء في فترة ما قبل الحساسية أو في وقت البحث. سحر!
إذا كنت تحب Symspell ، فجرّب SeekStorm- مكتبة بحث كاملة عن النص الكامل وخادم متعدد النصوص في Rust (مفتوح المصدر).
Copyright (c) 2022 Wolf Garbe
Version: 6.7.2
Author: Wolf Garbe <[email protected]>
Maintainer: Wolf Garbe <[email protected]>
URL: https://github.com/wolfgarbe/symspell
Description: https://seekstorm.com/blog/1000x-spelling-correction/
يوفر البحث تصحيح إملائي سريع جدًا للكلمات الفردية.
0.033 مللي ثانية/كلمة (تحرير المسافة 2) و 0.180 مللي ثانية/كلمة (تحرير المسافة 3) (جوهر واحد على 2012 MacBook Pro)
1،870 مرة أسرع من BK Tree (انظر المعيار 1: حجم القاموس = 500،000 ، أقصى مسافة تحرير = 3 ، مصطلحات الاستعلام مع مسافة تحرير عشوائي = 0 ... أقصى مسافة تحرير ، مطوّل = 0)
1 مليون مرة أسرع من خوارزمية نورفيغ (انظر المعيار 2: حجم القاموس = 29،157 ، أقصى مسافة تحرير = 3 ، مصطلحات الاستعلام مع مسافة تحرير ثابت = أقصى مسافة تحرير ، مطوّل = 0)
1000X خوارزمية تصحيح الإملاء الأسرع
سلسلة تقريبية سريعة مطابقة مع مسافات تحرير كبيرة في البيانات الضخمة
تنظيف البيانات السريع للغاية لأسماء المنتجات وأسماء الشركات وأسماء الشوارع
مركب sub-millisecond يدرك تصحيح الإملاء التلقائي
Symspell vs. Bk-Tree: 100x أسرع من البحث عن سلسلة وتفتيش إملائي
تجزئة الكلمات السريعة للنص الصاخب
The Pruning Radix Trie - trie trie على المنشطات
يدعم LookupCompound مركب تصحيح الإملاء التلقائي لسلاسل الإدخال متعددة الكلمات .
1. مركب الانقسام والتفكك
Lookup () يفترض كل سلسلة إدخال كمصطلح واحد . يدعم LookupCompound أيضًا تقسيم / تفكك المركب بثلاث حالات:
يمكن أن تختلط أخطاء تقسيم الأخطاء وأخطاء التسلسل وأخطاء الإحلال وأخطاء النقل وأخطاء الحذف وأخطاء الإدراج عن طريق نفس الكلمة.
2. تصحيح الإملاء التلقائي
- whereis th elove hehad dated forImuch of thepast who couqdn'tread in sixthgrade and ins pired him
+ where is the love he had dated for much of the past who couldn't read in sixth grade and inspired him (9 edits)
- in te dhird qarter oflast jear he hadlearned ofca sekretplan
+ in the third quarter of last year he had learned of a secret plan (9 edits)
- the bigjest playrs in te strogsommer film slatew ith plety of funn
+ the biggest players in the strong summer film slate with plenty of fun (9 edits)
- Can yu readthis messa ge despite thehorible sppelingmsitakes
+ can you read this message despite the horrible spelling mistakes (9 edits)
0.2 مللي ثانية / كلمة (تحرير المسافة 2) 5000 كلمة / ثانية (جوهر واحد على 2012 MacBook Pro)
يقسم WordSegressation سلسلة إلى كلمات عن طريق إدخال المساحات المفقودة في المواضع المناسبة.
- thequickbrownfoxjumpsoverthelazydog
+ the quick brown fox jumps over the lazy dog
- itwasabrightcolddayinaprilandtheclockswerestrikingthirteen
+ it was a bright cold day in april and the clocks were striking thirteen
- itwasthebestoftimesitwastheworstoftimesitwastheageofwisdomitwastheageoffoolishness
+ it was the best of times it was the worst of times it was the age of wisdom it was the age of foolishness
4 مللي ثانية لتجزئة سلسلة char 185 إلى 53 كلمة (جوهر واحد في 2012 MacBook Pro)
كلمة واحدة + إدخال: عرض اقتراحات الإملاء
أدخل بدون إدخال: إنهاء البرنامج
كلمات متعددة + إدخال: عرض اقتراحات الإملاء
أدخل بدون إدخال: إنهاء البرنامج
سلسلة بدون مسافات + إدخال: عرض نص مجزأ
أدخل بدون إدخال: إنهاء البرنامج
يمكن بناء مشاريع التجريبية والتجريبية والتجزئة مع رمز Visual Studio المجاني ، الذي يعمل على نظام التشغيل Windows و MacOS و Linux.
//create object
int initialCapacity = 82765 ;
int maxEditDistanceDictionary = 2 ; //maximum edit distance per dictionary precalculation
var symSpell = new SymSpell ( initialCapacity , maxEditDistanceDictionary ) ;
//load dictionary
string baseDirectory = AppDomain . CurrentDomain . BaseDirectory ;
string dictionaryPath = baseDirectory + " ../../../../SymSpell/frequency_dictionary_en_82_765.txt " ;
int termIndex = 0 ; //column of the term in the dictionary text file
int countIndex = 1 ; //column of the term frequency in the dictionary text file
if ( ! symSpell . LoadDictionary ( dictionaryPath , termIndex , countIndex ) )
Console . WriteLine ( " File not found! " ) ;
//press any key to exit program
Console . ReadKey ( ) ;
return ;
//lookup suggestions for single-word input strings
string inputTerm = " house " ;
int maxEditDistanceLookup = 1 ; //max edit distance per lookup (maxEditDistanceLookup<=maxEditDistanceDictionary)
var suggestionVerbosity = SymSpell . Verbosity . Closest ; //Top, Closest, All
var suggestions = symSpell . Lookup ( inputTerm , suggestionVerbosity , maxEditDistanceLookup ) ;
//display suggestions, edit distance and term frequency
foreach ( var suggestion in suggestions )
Console . WriteLine ( suggestion . term + " " + suggestion . distance . ToString ( ) + " " + suggestion . count . ToString ( " N0 " ) ) ;
//load bigram dictionary
string dictionaryPath = baseDirectory + " ../../../../SymSpell/frequency_bigramdictionary_en_243_342.txt " ;
int termIndex = 0 ; //column of the term in the dictionary text file
int countIndex = 2 ; //column of the term frequency in the dictionary text file
if ( ! symSpell . LoadBigramDictionary ( dictionaryPath , termIndex , countIndex ) )
Console . WriteLine ( " File not found! " ) ;
//press any key to exit program
Console . ReadKey ( ) ;
return ;
//lookup suggestions for multi-word input strings (supports compound splitting & merging)
inputTerm = " whereis th elove hehad dated forImuch of thepast who couqdn'tread in sixtgrade and ins pired him " ;
maxEditDistanceLookup = 2 ; //max edit distance per lookup (per single word, not per whole input string)
suggestions = symSpell . LookupCompound ( inputTerm , maxEditDistanceLookup ) ;
//display suggestions, edit distance and term frequency
foreach ( var suggestion in suggestions )
Console . WriteLine ( suggestion . term + " " + suggestion . distance . ToString ( ) + " " + suggestion . count . ToString ( " N0 " ) ) ;
//word segmentation and correction for multi-word input strings with/without spaces
inputTerm = " thequickbrownfoxjumpsoverthelazydog " ;
maxEditDistance = 0 ;
suggestion = symSpell . WordSegmentation ( input ) ;
//display term and edit distance
Console . WriteLine ( suggestion . correctedString + " " + suggestion . distanceSum . ToString ( " N0 " ) ) ;
//press any key to exit program
Console . ReadKey ( ) ;
أهداف Symspell .NET Standard V2.0 ويمكن استخدامها في:
يمكن بناء مشاريع Symspell و Demo و Democompound و Benchmark باستخدام رمز Visual Studio المجاني ، الذي يعمل على Windows و MacOS و Linux.
جودة القاموس أمر بالغ الأهمية لجودة التصحيح. من أجل تحقيق هذا المصدرين للبيانات تم الجمع بين التقاطع: كتب Google Books Ngram التي توفر ترددات الكلمات التمثيلية (ولكنها تحتوي على العديد من الإدخالات مع أخطاء إملائية) و Scowl - قوائم الكلمات الموجهة المدقق التي تضمن مفردات إنجليزية حقيقية (ولكن لا تحتوي على ترددات كلمة مطلوب لترتيب الاقتراحات ضمن نفس مسافة التحرير).
تم إنشاء التردد _dictionary_en_82_765.txt عن طريق تقاطع القائمتين المذكورة أدناه. عن طريق تصفية هذه الكلمات فقط التي تظهر في كلا القائمتين يتم استخدامها. تم تطبيق المرشحات الإضافية وقائمة الناتجة المقطوعة إلى ≈ 80،000 كلمة متكررة.
يمكنك إنشاء قاموس التردد الخاص بك لغتيتك أو المجال الفني المتخصص. تدعم خوارزمية تصحيح Symspell الإملائية اللغات ذات الأحرف غير اللاتينية ، مثل السيريلية أو الصينية أو الجورجية.
يتضمن Symspell قاموس التردد الإنجليزي
تقع هنا قواميس للصينية والإنجليزية والفرنسية والألمانية والعبرية والإيطالية والروسية والإسبانية هنا:
يمكن العثور على قواميس التردد في العديد من اللغات الأخرى هنا:
مستودع كلمات التردد
قواميس التردد
قواميس التردد
C# (رمز المصدر الأصلي)
.NET (حزمة nuget)
لم يتم اختبار منافذ الجهات الخارجية التالية أو إعادة تنفيذ لغات البرمجة الأخرى بنفسي ما إذا كانت منفذًا دقيقًا أو خالٍ من الأخطاء أو يقدمون نتائج متطابقة أو أسرع من الخوارزمية الأصلية.
تستهدف معظم المنافذ Symspell الإصدار 3.0 . لكن الإصدار 6.1. يوفر سرعة أعلى بكثير وانخفاض استهلاك الذاكرة!
واجهة برمجة تطبيقات الويب (Docker)
https://github.com/leonerath/symspellapi (الإصدار 6.3)
C ++
https://github.com/athes21/symspellcpp (الإصدار 6.5)
https://github.com/erhanbaris/symspellplusplus (الإصدار 6.1)
https://github.com/mightguy/customized-symspell (الإصدار 6.6)
https://github.com/RXP90/jsymspell (الإصدار 6.6)
https://github.com/lundez/javasymspell (الإصدار 6.4)
جافا سكريبت
https://github.com/mathieuloutre/node-symspell (الإصدار 6.6 ، يحتاج إلى node.js)
https://github.com/amitbhavsariphone/symspell (الإصدار 6.3)
https://github.com/mammothb/symspellpy (الإصدار 6.7)
https://github.com/viig99/symspellcpppy (الإصدار 6.5)
https://github.com/zoho-labs/symspell (روابط Python من إصدار الصدأ)
https://github.com/ne3x7/pysymspell/ (الإصدار 6.1)
https://github.com/reneklacan/symspell (الإصدار 6.6 ، يجمع إلى webassembly)
https://github.com/luketpeterson/fuzzy_rocks (مخزن بيانات مستمر مدعوم بواسطة Rocksdb)
-> bicycle
(بدلاً من by cycle
-> inconvenient
(بدلاً من i convent
ساهم Sequspell من قبل SeekStorm - البحث عالي الأداء كخدمة واجهة برمجة تطبيقات البحث والبحث