Téléchargement SymSpell - Téléchargement du code source SymSpell

SymSpell

Autre code source

v6.7.2

Télécharger

Syspel

Correction d'orthographe et recherche floue: 1 million de fois plus rapidement grâce à une suppression symétrique Algorithme de correction d'orthographe

L'algorithme symétrique de correction d'orthographe de suppression réduit la complexité de la génération des candidats et de la recherche de dictionnaire de modification pour une distance donnée Damerau-Levenshtein. Il s'agit de six ordres de grandeur plus rapidement (que l'approche standard avec les suppressions + transpose + remplace + inserts) et indépendant du langage.

En face des autres algorithmes, seuls les suppressions sont nécessaires, aucune transposition + remplace + inserts. Transpose + Replace + Les inserts du terme d'entrée sont transformés en supprimés du terme de dictionnaire. Les remplacements et les inserts sont coûteux et dépendants du langage: par exemple le chinois a 70 000 caractères Unicode Han!

La vitesse provient de la génération de candidats de modification de suppression de suppression uniquement bon marché et de la pré-calcul .
Un mot moyen de 5 lettres a environ 3 millions d'erreurs d'orthographe possibles dans une distance d'édition maximale de 3,
Mais Symspell doit générer seulement 25 suppressions pour les couvrir toutes, à la fois à la pré-calcul et au temps de recherche. Magie!

Si vous aimez SymSpell, essayez Seekstorm - une bibliothèque de recherche en texte intégral inférieur à Milliseconde et un serveur multi-tenue dans Rust (open source).

 Copyright (c) 2022 Wolf Garbe
Version: 6.7.2
Author: Wolf Garbe <[email protected]>
Maintainer: Wolf Garbe <[email protected]>
URL: https://github.com/wolfgarbe/symspell
Description: https://seekstorm.com/blog/1000x-spelling-correction/

MIT License

Copyright (c) 2022 Wolf Garbe

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated 
documentation files (the "Software"), to deal in the Software without restriction, including without limitation 
the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.

https://opensource.org/licenses/MIT

Correction d'orthographe unique

La recherche fournit une correction d'orthographe très rapide des mots simples.

Un paramètre de verbosité permet de contrôler le nombre de résultats retournés:
En haut: suggestion supérieure avec la fréquence à terme la plus élevée des suggestions de plus petite distance de modification trouvée.
Les plus proches: toutes les suggestions de plus petite distance de modification trouvée, suggestions commandées par la fréquence du terme.
TOUT: toutes les suggestions dans maxeditDistance, suggestions commandées par distance de modification, puis par fréquence de terme.
Le contrôle maximal des paramètres de distance d'édition jusqu'à laquelle modifier les mots de distance du dictionnaire doit être traité comme des suggestions.
Le dictionnaire de fréquence de mots requis peut être directement chargé à partir de fichiers texte ( LoadDictionary ) ou généré à partir d'un grand corpus de texte ( Créationdictionary ).

Applications

Correction d'orthographe,
Correction des requêtes (10–15% des requêtes contiennent des termes mal orthographiés),
Chatbots,
Post-traitement des OCR,
Relecture automatisée.
Recherche floue et correspondance de cordes approximative

Performance (seul terme)

0,033 millisecondes / mot (édition de distance 2) et 0,180 millisecondes / mot (édition de distance 3) (core unique sur MacBook Pro 2012)

1 870 fois plus rapide que BK-are (voir Benchmark 1: Taille du dictionnaire = 500 000, distance d'édition maximale = 3, termes de requête avec distance d'édition aléatoire = 0 ... Distance d'édition maximale, verbose = 0)

1 million de fois plus rapide que l'algorithme de Norvig (voir Benchmark 2: Taille du dictionnaire = 29,157, distance d'édition maximale = 3, termes de requête avec distance d'édition fixe = distance d'édition maximale, verbose = 0)

Articles de blog: algorithme, repères, applications

Algorithme de correction d'orthographe 1000x plus rapide
Correspondance rapide à la chaîne approximative avec les grandes distances de modification dans les mégadonnées
Nettoyage de données très rapide des noms de produits, des noms d'entreprise et des noms de rue
Correction d'orthographe automatique de composé de moins
Symspell vs BK-are: 100x Recherche de chaîne floues plus rapide et vérification des orthographes
Segmentation rapide des mots pour le texte bruyant
Le Trie Radix Trie - un Radix Trie sur les stéroïdes

Correction d'orthographe multi-mots conscients de composés

LookupCompound prend en charge la conscience composée Correction d'orthographe automatique des chaînes d'entrée multi-mots .

1. Françonnage et décomposition composés

Lookup () suppose chaque chaîne d'entrée en tant que terme unique . LookupCompound prend également en charge la fractionnement / décompoudage composé avec trois cas:

inséré à tort dans un mot correct a conduit à deux termes incorrects
L'espace omis à tort entre deux mots corrects a conduit à un terme combiné incorrect
plusieurs termes d'entrée avec / sans erreurs d'orthographe

Les erreurs de division, les erreurs de concaténation, les erreurs de substitution, les erreurs de transposition, les erreurs de suppression et les erreurs d'insertion peuvent être mélangées dans le même mot.

2. Correction d'orthographe automatique

Les grandes collections de documents rendent la correction manuelle infassible et nécessitent une correction d'orthographe entièrement automatique non supervisée.
Dans la correction d'orthographe conventionnelle d'un jeton unique, l'utilisateur est présenté avec plusieurs suggestions de correction de l'orthographe.
Pour la correction automatique de l'orthographe d'un long texte multi-mots, l'algorithme lui-même doit faire un choix éduqué.

Exemples:

 - whereis th elove hehad dated forImuch of thepast who couqdn'tread in sixthgrade and ins pired him
+ where is the love he had dated for much of the past who couldn't read in sixth grade and inspired him  (9 edits)

- in te dhird qarter oflast jear he hadlearned ofca sekretplan
+ in the third quarter of last year he had learned of a secret plan  (9 edits)

- the bigjest playrs in te strogsommer film slatew ith plety of funn
+ the biggest players in the strong summer film slate with plenty of fun  (9 edits)

- Can yu readthis messa ge despite thehorible sppelingmsitakes
+ can you read this message despite the horrible spelling mistakes  (9 edits)

Performance (composés)

0,2 millisecondes / mot (édition de distance 2) 5000 mots / seconde (noyau unique sur MacBook Pro 2012)

Segmentation des mots du texte bruyant

WordSegmentation divise une chaîne en mots en insérant des espaces manquants à des positions appropriées.

Les mots mal orthographiés sont corrigés et n'empêchent pas la segmentation.
Les espaces existants sont autorisés et pris en compte pour une segmentation optimale.
Symspell.WordSegmentation utilise une approche matricielle triangulaire au lieu de la programmation dynamique conventionnelle: il utilise un tableau au lieu d'un dictionnaire pour la mémorisation, des boucles au lieu de la récursivité et optimise progressivement les chaînes de préfixe au lieu des chaînes restantes.
L'approche de la matrice triangulaire est plus rapide que l'approche de programmation dynamique. Il a une consommation de mémoire plus faible, une meilleure mise à l'échelle (constante O (1) la consommation de mémoire par rapport à O (n)) et est conviviale GC.
Alors que chaque chaîne de longueur n peut être segmentée en 2 ^ n - 1 compositions possibles,
Symspell.WordSegmentation a un runtime linéaire O (n) pour trouver la composition optimale.

Exemples:

 - thequickbrownfoxjumpsoverthelazydog
+ the quick brown fox jumps over the lazy dog

- itwasabrightcolddayinaprilandtheclockswerestrikingthirteen
+ it was a bright cold day in april and the clocks were striking thirteen

- itwasthebestoftimesitwastheworstoftimesitwastheageofwisdomitwastheageoffoolishness
+ it was the best of times it was the worst of times it was the age of wisdom it was the age of foolishness

Applications:

Segmentation des mots pour les langues CJK pour indexer la correction de l'orthographe, la traduction automatique, la compréhension du langage, l'analyse des sentiments
Normaliser les noms de composé anglais pour la recherche et l'indexation (par exemple, Box = Ice-Box = Icebox; Pig Sty = Pig-Sty = Pigsty)
La segmentation des mots pour les composés si les parties du mot d'origine et de mot divisé doivent être indexées.
Correction des espaces manquants causés par les erreurs de saisie.
Correction des erreurs de conversion: les espaces entre le mot peuvent se perdre, par exemple lors du retrait de la ligne.
Correction des erreurs OCR: Qualité inférieure des documents originaux ou du texte manuscrit peut empêcher que tous les espaces soient reconnus.
Correction des erreurs de transmission: Pendant la transmission sur les canaux bruyants, les espaces peuvent être perdus ou des erreurs d'orthographe.
Extraction de mots clés à partir d'adresses d'URL, de noms de domaine, de #hashtags, de descriptions de colonnes de table ou de variables de programmation écrites sans espaces.
Pour l'analyse des mots de passe, l'extraction des termes à partir de mots de passe peut être nécessaire.
Pour la reconnaissance de la parole, si les espaces entre les mots ne sont pas correctement reconnus dans la langue parlée.
Camelcasing automatique des variables de programmation.
Applications au-delà du traitement du langage naturel, par exemple, segmenter la séquence d'ADN en mots

Performance:

4 millisecondes pour segmenter une chaîne de 185 charbon en 53 mots (core unique sur MacBook Pro 2012)

Demo d'usage de syspell

Mot unique + Entrez: Afficher les suggestions d'orthographe
Entrez sans entrée: terminez le programme

Utilisation SymspellCompound Demo

Plusieurs mots + entrez: afficher les suggestions d'orthographe
Entrez sans entrée: terminez le programme

Démo de segmentation d'utilisation

chaîne sans espaces + Entrez: afficher le texte segmenté du mot
Entrez sans entrée: terminez le programme

Les projets de démonstration, de démo et de segmentation peuvent être construits avec le code Visual Studio gratuit, qui s'exécute sur Windows, MacOS et Linux.

Bibliothèque d'usage Symspell

 //create object
int initialCapacity = 82765 ;
int maxEditDistanceDictionary = 2 ; //maximum edit distance per dictionary precalculation
var symSpell = new SymSpell ( initialCapacity , maxEditDistanceDictionary ) ;
      
//load dictionary
string baseDirectory = AppDomain . CurrentDomain . BaseDirectory ;
string dictionaryPath = baseDirectory + " ../../../../SymSpell/frequency_dictionary_en_82_765.txt " ;
int termIndex = 0 ; //column of the term in the dictionary text file
int countIndex = 1 ; //column of the term frequency in the dictionary text file
if ( ! symSpell . LoadDictionary ( dictionaryPath , termIndex , countIndex ) )
{
  Console . WriteLine ( " File not found! " ) ;
  //press any key to exit program
  Console . ReadKey ( ) ;
  return ;
}

//lookup suggestions for single-word input strings
string inputTerm = " house " ;
int maxEditDistanceLookup = 1 ; //max edit distance per lookup (maxEditDistanceLookup<=maxEditDistanceDictionary)
var suggestionVerbosity = SymSpell . Verbosity . Closest ; //Top, Closest, All
var suggestions = symSpell . Lookup ( inputTerm , suggestionVerbosity , maxEditDistanceLookup ) ;

//display suggestions, edit distance and term frequency
foreach ( var suggestion in suggestions )
{ 
  Console . WriteLine ( suggestion . term + " " + suggestion . distance . ToString ( ) + " " + suggestion . count . ToString ( " N0 " ) ) ;
}


//load bigram dictionary
string dictionaryPath = baseDirectory + " ../../../../SymSpell/frequency_bigramdictionary_en_243_342.txt " ;
int termIndex = 0 ; //column of the term in the dictionary text file
int countIndex = 2 ; //column of the term frequency in the dictionary text file
if ( ! symSpell . LoadBigramDictionary ( dictionaryPath , termIndex , countIndex ) )
{
  Console . WriteLine ( " File not found! " ) ;
  //press any key to exit program
  Console . ReadKey ( ) ;
  return ;
}

//lookup suggestions for multi-word input strings (supports compound splitting & merging)
inputTerm = " whereis th elove hehad dated forImuch of thepast who couqdn'tread in sixtgrade and ins pired him " ;
maxEditDistanceLookup = 2 ; //max edit distance per lookup (per single word, not per whole input string)
suggestions = symSpell . LookupCompound ( inputTerm , maxEditDistanceLookup ) ;

//display suggestions, edit distance and term frequency
foreach ( var suggestion in suggestions )
{ 
  Console . WriteLine ( suggestion . term + " " + suggestion . distance . ToString ( ) + " " + suggestion . count . ToString ( " N0 " ) ) ;
}


//word segmentation and correction for multi-word input strings with/without spaces
inputTerm = " thequickbrownfoxjumpsoverthelazydog " ;
maxEditDistance = 0 ;
suggestion = symSpell . WordSegmentation ( input ) ;

//display term and edit distance
Console . WriteLine ( suggestion . correctedString + " " + suggestion . distanceSum . ToString ( " N0 " ) ) ;


//press any key to exit program
Console . ReadKey ( ) ;

Trois façons d'ajouter Symspell à votre projet:

Ajoutez Symspell.cs, EditDistance.cs et fréquence_dictionary_en_82_765.txt à votre projet. Les trois fichiers sont situés dans le dossier SymSpell. L'activation de l'option de compilateur "Préférer 32 bits" réduira considérablement la consommation de mémoire du dictionnaire pré-calculé.
Ajoutez Symspell Nuget à votre projet Framework Net : Visual Studio / Tools / Nuget Packager / Gérer les packages NuGet pour la solution / Sélectionnez "Browse Tab" / Rechercher pour SymSpell / Sélectionnez SymSpell / Vérifiez votre projet sur le bouton Windows Right Windows / Cliquez sur le bouton Installer. La fréquence_dictionary_en_82_765.txt est automatiquement installée .
Ajoutez Symspell Nuget à votre projet Net Core : Visual Studio / Tools / Nuget Packager / Gérer les packages NuGet pour la solution / Sélectionnez "Browse Tab" / Recherchez SymSpell / Sélectionnez SymSpell / Vérifiez votre projet sur le bouton Windows Right Windows / Cliquez sur le bouton. La fréquence_dictionary_en_82_765.txt doit être copiée manuellement dans votre projet.

Symspell cible .NET standard v2.0 et peut être utilisé dans:

Net Framework ( Windows Forms, WPF, ASP.NET),
Net Core (UWP, ASP.NET Core, Windows , OS X , Linux ),
Projets Xamarin ( iOS , OS X , Android ).

Les projets Symspell, Demo, DemoCound et Benchmark peuvent être construits avec le code Visual Studio gratuit, qui s'exécute sur Windows, MacOS et Linux.

Dictionnaire de fréquence

La qualité du dictionnaire est primordiale pour la qualité de correction. Afin d'atteindre ces deux sources de données ont été combinées par intersection: Google Books NGRAM Data qui fournit des fréquences de mots représentatives (mais contient de nombreuses entrées avec des erreurs d'orthographe) et des listes de mots orientées par vérificateur orthographique qui assurent un véritable vocabulaire anglais (mais ne contenaient pas de fréquences de mots requis pour le classement des suggestions sur la même distance de modification).

La fréquence_dictionary_en_82_765.txt a été créée en entre-coupe les deux listes mentionnées ci-dessous. En filtrant réciproquement, seuls les mots qui apparaissent dans les deux listes sont utilisés. Des filtres supplémentaires ont été appliqués et la liste résultante a tronqué à ≈ 80 000 mots les plus fréquents.

Google Books Ngram Data (Licence): fournit des fréquences de mots représentatives
Sorcard - Listes de mots orientés vers le vérificateur orthographique (Licence): assure un véritable vocabulaire anglais

Format de fichier de dictionnaire

Fichier texte brut dans le codage UTF-8.
La fréquence des mots et des mots est séparée par l'espace ou l'onglet. Par défaut, le mot est attendu dans la première colonne et la fréquence de la deuxième colonne. Mais avec les paramètres termindex et countIndex dans LoadDictionary (), la position et l'ordre des valeurs peuvent être modifiés et sélectionnés à partir d'une ligne avec plus de deux valeurs. Cela permet d'augmenter le dictionnaire avec des informations supplémentaires ou de s'adapter aux dictionnaires existants sans reformater.
Chaque paire de fréquence de mots dans une ligne séparée. Une ligne est définie comme une séquence de caractères suivie d'un flux de ligne (" n"), d'un retour chariot (" r"), ou d'un retour chariot immédiatement suivi d'un flux de ligne (" r n").
Les termes du dictionnaire et le terme d'entrée devraient être en bas cas .

Vous pouvez créer votre propre dictionnaire de fréquence pour votre langue ou votre domaine technique spécialisé. L'algorithme de correction de l'orthographe Symspell prend en charge les langues avec des caractères non latins, par exemple cyrillique, chinois ou géorgien.

Dictionnaires de fréquence dans d'autres langues

Symspell comprend un dictionnaire de fréquence anglais

Les dictionnaires pour chinois, anglais, français, allemand, hébreu, italien, russe et espagnol sont situés ici:
Symbspell.frequencyDictionary

Des dictionnaires de fréquence dans de nombreuses autres langues peuvent être trouvés ici:
Référentiel de mots fréquentiels
Dictionnaires de fréquence
Dictionnaires de fréquence

C # (code source d'origine)
https://github.com/wolfgarbe/symspell

.NET (package NuGet)
https://www.nuget.org/packages/symspell

Ports

Les ports ou réimplémentations tiers suivants à d'autres langages de programmation n'ont pas été testés par moi-même s'ils sont un port exact, sans erreur, fournissent des résultats identiques ou sont aussi rapides que l'algorithme d'origine.

La plupart des ports ciblent Symspell version 3.0 . Mais la version 6.1. Fournit une vitesse de vitesse beaucoup plus élevée et une consommation de mémoire inférieure!

Webassembly
https://github.com/justinwilaby/spellchecker-wasm

API Web (Docker)
https://github.com/leonerath/symspellapi (version 6.3)

C ++
https://github.com/athes21/symspellcpp (version 6.5)
https://github.com/erhanbaris/symspellplusplus (version 6.1)

Cristal
https://github.com/chenkovsky/aha/blob/master/src/aha/sym_spell.cr

Aller
https://github.com/sajari/fuzzy
https://github.com/eskriett/spell

Haskell
https://github.com/cbeav/symspell

Java
https://github.com/mightguy/customated-symspell (version 6.6)
https://github.com/rxp90/jsymspell (version 6.6)
https://github.com/lundez/javasymspell (version 6.4)
https://github.com/rxp90/jsymspell
https://github.com/gpranav88/symspell
https://github.com/searchhub/predict
https://github.com/jpsingarayar/spellblaze

Javascrip
https://github.com/mathieuloutre/node-symspell (version 6.6, a besoin de node.js)
https://github.com/itslenny/symspell.js
https://github.com/dongyuwei/symspell
https://github.com/icecreamyou/symspell
https://github.com/yomagherneal/mnemonist/blob/master/symspell.js

Julia
https://github.com/arkoniak/symspell.jl

Kotlin
https://github.com/wavesonics/symspellkt

Objectif-c
https://github.com/amitbhavsariphone/symspell (version 6.3)

Python
https://github.com/mammothb/symspellpy (version 6.7)
https://github.com/viig99/symspellcpppy (version 6.5)
https://github.com/zoho-labs/symspell (Python Bindings of Rust Version)
https://github.com/ne3x7/pysyspell/ (version 6.1)
https://github.com/ayyuriss/symspell
https://github.com/ppgmg/github_public/blob/master/spell/symspell_python.py
https://github.com/rcorivaud/symspellcompound
https://github.com/esukhia/sympound-python
https://www.kaggle.com/yk1598/symspell-spell-corrector

Rubis
https://github.com/philt/symspell

Rouiller
https://github.com/reneklacan/symspell (version 6.6, compile à webassembly)
https://github.com/luketpeterson/fuzzy_rocks (plan de données persistant soutenu par RocksDB)

Scala
https://github.com/semkath/symspell

Rapide
https://github.com/gdetari/symspellswift

Citations

Corcher orthographique multilingue contextuel pour les requêtes utilisateur
Sanat Sharma, Josep Valls-Vargas, Tracy Holloway King, François Guerin, Chirag Arora (Adobe)
https://arxiv.org/abs/2305.01082

Un vérificateur orthographique en temps réel sensible au contexte avec adaptabilité du langage
Prabhakar Gupta (Amazon)
https://arxiv.org/abs/1910.11242

Speakger: un corpus de discours enrichi des métadonnées des états allemands et des parlements fédéraux
Kai-Robin Lange et Carsten Jentsch
https://arxiv.org/pdf/2410.17886

Un vocabulaire de marquage de séquence étendue pour la correction d'erreur grammaticale
Stuart Mesham, Christopher Bryant, Marek Rei, Zheng Yuan
https://arxiv.org/abs/2302.05913

Corpus parlementaire allemand (Gerparcor)
Giuseppe Abrami, Mevlüt Bagci, Leon Hammerla, Alexander Mehler
https://arxiv.org/abs/2204.10422

IOCR: Reconnaissance informée du caractère optique pour les talons de vote électoral
Kenneth U. Oyibo, Jean D. Louis, Juan E. Gilbert
https://arxiv.org/abs/2208.00865

Vérificateur orthographique Amazigh utilisant l'algorithme Damerau-Levenshtein et N-gram
Youness chaabi, fadoua ataa allah
https://www.sciecendirect.com/science/article/pii/S1319157821001828

Enquête sur la correction de la requête pour la récupération des informations sur les entreprises thaïlandaises
Phongsathorn Kittiworapanya, Nuttapong Saelek, Anuruth Lertpiya, Tawunrat Chalothorn
https://ieeexplore.ieee.org/document/9376809

Symspell et LSTM basés sur des vérificateurs pour le tamoul
Selvakumar Murugantamil Arasan Bakthavatchalamtamil Arasan Bakthavatchalammalaikannan Sankarasubbu
https://www.researchgate.net/publication/349924975_symspell_and_lstm_based_spell-_checkers_for_tamil

Symspell4burmese: Algorithme de correction d'orthographe symétrique (Symspell) pour la vérification de l'orthographe birmane
Ei Phyu Phyu Mon; Ye Kyaw Thu; Que yu; Oui wai oo
https://ieeexplore.ieee.org/document/9678171

Vérification orthographique Indonésie Menggunakan Norvig Dan Symspell
Yasir Abdur Rohman
https://medium.com/@yasirabd/spell-check-indonesia-megggunakan-norvig-dan-symspell-4fa583d62c24

Analysis Perbandingan Metode Burkhard Keller Tree Dan Dan Symspell Dalam Correction des sorts Bahasa Indonésie
Muhammad Hafizh Ferdiansyah, I Kadek Dwi Nuryana
https://ejournal.unesa.ac.id/index.php/jinacs/article/download/50989/41739

Amélioration de la récupération de documents avec une correction d'orthographe pour les hadiths translés par indonésie faibles et fabriqués
Muhammad Zaky Ramadhankemas M lhaksmanakemas m lhaksmana
https://www.researchgate.net/publication/342390145_improving_document_retrieval_with_spelling_correction_for_weak_and_fabricated_indonesian-translated_hadithish

Symspell 을 이용한 한글 맞춤법 교정 김희규
https://heegyukim.medium.com/symspell%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%9C-%ED%95%9C%EA%B8%80- % EB% A7% 9E% EC% B6% A4% EB% B2% 95-% EA% B5% 90% EC% A0% 95-3DEF9CA00805

Réparer les textes fracturés. Une procédure heuristique pour corriger les données OCR
Jens Bjerring-Hansen, Ross Deans Kristensen-McLachla2, Philip Diderichsen et Dorte Haltrup Hansen
https://ceur-ws.org/vol-3232/paper14.pdf

Vers le traitement du langage naturel comme correction d'orthographe pour les systèmes de reconnaissance de texte manuscrits hors ligne
Arthur Flor de Sousa Neto; Byron Leite Dantas Bezerra; et Alejandro Héctor Toselli
https://www.mdpi.com/2076-3417/10/21/7711

Quand utiliser le post-correction OCR pour la reconnaissance des entités nommées?
Vinh-Nam Huynh, Ahmed Hamdi, Antoine Doucet
https://hal.science/hal-03034484v1/

Correction d'erreur automatique: évaluation des performances des outils de vérification orthographique
A. Tolenova
https://journals.sdu.edu.kz/index.php/nts/article/view/690

Zhaw-Cai: Méthode d'ensemble pour la parole allemande suisse au texte allemand standard
Malgorzata Anna Ulasik, Manuela Hurlimann, Bogumila Dubel, Yves Kaufmann,
Silas Rudolf, Jan Deriu, Kataryna Mlynchyk, Hans-Peter Hutter et Mark Cieliebak
https://ceur-ws.org/vol-2957/sg_paper3.pdf

Programme d'erreur de mot cyrillique basé sur l'apprentissage automatique
Battumur, K., Dulamragchaa, U., Enkhbat, S., Altanhuyag, L., et Tuburbaatar, P.
https://mongoliajol.info/index.php/jimdt/article/view/2661

Recherche de chaîne approximative rapide pour la wikification
Szymon Olewniczak, Julian Szymanski
https://www.iccs-meeting.org/archive/iccs2021/papers/127440334.pdf

RumedSpellchecker: Correction des erreurs d'orthographe pour le langage russe naturel dans les dossiers de santé électroniques à l'aide de techniques d'apprentissage automatique
Dmitrii Pogrebnoi, Anastasia Funkner, Sergey Kovalchuk
https://link.springer.com/chapter/10.1007/978-3-031-36024-4_16

Un vocabulaire de marquage de séquence étendue pour la correction d'erreur grammaticale
Stuart Mesham, Christopher Bryant, Marek Rei, Zheng Yuan
https://aclanthology.org/2023.findings-eacl.119.pdf

Recherche de similitude des récepteurs immunitaires adaptatifs à la foudre par recherche de suppression symétrique
Touchchai Chotisorayuth, Andreas Tiffeau-Mayer
https://arxiv.org/html/2403.09010v1

Dévoilage de toxicité déguisée: un nouveau module de prétraitement pour une modération de contenu améliorée
Johnny Chan, Yuming Li
https://www.scieendirect.com/science/article/pii/S2215016124001225

Modifications à venir

L'utilisation du principe du pigeon en partageant à la fois les termes de requête et de dictionnaire entraînera une consommation de mémoire de 5x moins et un temps de précalculation plus rapide.
Option pour préserver le boîtier (supérieur / en bas de casse) du terme d'entrée.
Open source Le code pour créer des dictionnaires de fréquence personnalisés dans n'importe quelle langue et taille comme intersection entre les données de Google Books NGRAM (fournit des fréquences de mots représentatives) et des listes de mots orientées vers le vérificateur orthographique (assure un véritable vocabulaire anglais).

Changements dans V6.7.2

Exception fixée dans le segmentation de mots
La plate-forme est passée de Netcore 2.1 à Netcore 3.0

Changements dans V6.7.1

La cible du cadre est passée de Net472 à Net47
Cible du cadre ajouté netCoreApp3.0
Contractions plus courantes ajoutées à fréquence_dictionary_en_82_765.txt

Changements dans la v6.7

WordSegmentation n'a pas fonctionné correctement si la chaîne d'entrée contenait des mots en majuscules.
WordSegmentation conserve / préserve désormais le cas.
Le segmentation de mots maintient désormais la ponctuation ou l'apostrophe adjacente au mot précédent.
La segmentation de mots normalise désormais les ligatures: "scienti ﬁ que" -> "scientifique".
Wordsegmentation supprime désormais les traits de traits avant la segmentation des mots (car ils pourraient être causés par la syllabfication).
Les formes de mots anglaises américaines ajoutées au dictionnaire en plus de l'anglais britannique, par exemple, favorable -> favorable.

Changements dans la v6.6

Amélioration: LoadDictionary et LoadBigramDictionary ont désormais un paramètre de séparateur facultatif, qui définit les caractères de séparateur (par exemple ' t') entre les termes et le nombre. La valeur par défaut est defaultSeparatorChars = null pour l'espace blanc.
Cela permet aux dictionnaires de contenir des phrases séparées d'espace.
Si dans chargebigramdictionary, aucun paramètre de séparateur n'est indiqué ou par défaut, les paratrices (espace blanc) sont indiqués comme paramètre de séparateur, alors prenez deux pièces à terme, sinon en prendre une seule (qui est alors elle-même un bigram séparé d'espace).

Changements dans V6.5

Amélioration: meilleure qualité de correction Symspell.LookupCompound avec le dictionnaire à terme unique existant en utilisant la probabilité naïve de Bayes pour sélectionner la meilleure division de mots.
bycycle -> bicycle (plutôt que by cycle )
inconvient -> inconvenient (au lieu de i convent )
Amélioration: encore mieux Symspell. La qualité de correction de la recherche, lorsque vous utilisez le dictionnaire BigRam en option afin d'utiliser des informations de contexte au niveau de la phrase pour sélectionner la meilleure correction d'orthographe.
Amélioration: dictionnaire de fréquence de bigram anglais inclus

Changements dans V6.4

Méthodes Loaddictoarary (Stream, ...) et Créationdictionary (Stream) ajoutées (Contribution par CCADY)
Permet d'obtenir des dictionnaires à partir de flux de réseau, de flux de mémoire et de flux de ressources en plus des fichiers pris en charge précédemment.

Changements dans la v6.3

Amélioration: WordSegmentation ajoutée:
WordSegmentation divise une chaîne en mots en insérant des espaces manquants à des positions appropriées.
Les mots mal orthographiés sont corrigés et n'empêchent pas la segmentation.
Les espaces existants sont autorisés et pris en compte pour une segmentation optimale.
Symspell.WordSegmentation utilise une nouvelle approche de la segmentation des mots sans récursivité.
Alors que chaque chaîne de longueur n peut être segmentée en 2 ^ n - 1 compositions possibles,
Symspell.WordSegmentation a un runtime linéaire O (n) pour trouver la composition optimale.
Amélioration: nouveaux paramètres de ligne de commande:
LookupType: Lookup, LookupCompound, WordSegment.
OutputStats: Switch pour afficher uniquement une chaîne corrigée ou une chaîne corrigée, modifier la distance, la fréquence / la probabilité du mot.
Amélioration: Recherche avec maxeditDistance = 0 plus rapidement.

Changements dans V6.2

Amélioration: Symspell.Comandline Project ajouté. Permet les tuyaux et les redirects pour l'entrée et la sortie. Dictionnaire / COPUS Fichier, MaxeDisdistance, Verbosité, PrefixLength peut être spécifié via la ligne de commande. Aucune programmation requise.
Amélioration: Damerauosa Edit Distance mise à jour, Levenshtein Edit Distance ajoutée (dans Softwx.match par Steve Hatchett)
Changement: D'autres projets dans la solution SymSpell utilisent désormais des références à SymSpell au lieu de liens vers les fichiers source.

Changements dans V6.1

Amélioration: SymspellCompound a été refactorisé de la classe statique à une classe instanciée et intégrée dans Symspell, donc SymSpellCompound est désormais également basé sur la dernière version SymSpell avec tous les correctifs et améliorations de performances
Amélioration: symspell.demo.csproj, symspell.democompound.csproj, symspell.benchmark.csproj ont été recréées à partir de zéro et cibler.
Changement: Le répertoire TestData a été déplacé du dossier de démonstration dans le dossier de référence
Changement: Licence est passée de LGPL 3.0 à la licence MIT la plus permissive pour permettre une utilisation commerciale sans friction.

Modifications de V6.0

Amélioration: Symspell Internal Dictionary a été refactorisé par Steve Hatchett.
2x pré-calcul du dictionnaire plus rapide et 2x consommation de mémoire inférieure.

Changements dans la v5.1

Amélioration: Symspell a été refactorisé de la classe statique à la classe instanciée par Steve Hatchett.
Amélioration: projet d'analyse comparative.
Amélioration: projet de test unitaire ajouté.
Amélioration: différentes maxediditance pour la précalculation du dictionnaire et pour la recherche.
Changement: la fonctionnalité de langue supprimée (utilisez à la place les instances SymSpell séparées).
Changement: paramètre de verbosité est passé de l'int à l'énumération
Correction: résultats de recherche incomplets, si maxEditDistance = 1 et input.length> prefixLength.
Correction: compter la protection de débordement fixe.

Changements dans la v5.0

Correction: les suggestions n'étaient pas toujours complètes pour l'entrée.length <= editDistanceMax.
Fix: les suggestions n'étaient pas toujours complètes / meilleures pour Verbose <2.
Amélioration: indexation du préfixe implémenté: plus de 90% de réduction de la mémoire, en fonction de la longueur du préfixe et de la distance de modification. Le pouvoir discriminatoire des caractères supplémentaires diminue avec la longueur des mots. En restreignant la génération de candidats de suppression au préfixe, nous pouvons économiser de l'espace, sans sacrifier trop l'efficacité du filtre. La longueur de préfixe plus longue signifie une vitesse de recherche plus élevée au coût d'une taille d'indice plus élevée.
Amélioration: l'algorithme pour daMerAulevenshteIndistance () a changé plus rapidement.
Parsewords () sans linq
CréationdictionaryEntry Simplified, addlowestDistance () supprimé.
Lookup () s'est amélioré.
Benchmark () Ajouté: recherche de 1000 termes avec des erreurs d'orthographe aléatoires.

Changements dans la V4.1

Symspell.csproj génère un package Symspell Nuget (qui peut être ajouté à votre projet)
Symspelldemo.csproj montre comment Symspell peut être utilisé dans votre projet (en utilisant Symspell.cs directement ou en ajoutant le package SymSpell Nuget)

Modifications de la v4.0

Correction: Auparavant, pas toujours toutes les suggestions à distance de modification (verbose = 1) ou la meilleure suggestion (verbose = 0) a été retournée: par exemple "Elove" n'a pas renvoyé "amour"
Regex ne fera plus de mots divisés aux apostrophes
Dictionnaire <String, objet> Dictionnaire changé en Dictionary <String, int32> Dictionary
Loaddictionary () ajouté pour charger un dictionnaire de fréquence. Créationdictionary reste et peut être utilisé alternativement pour créer un dictionnaire à partir d'un grand corpus de texte.
Dictionnaire de fréquence de mots anglais ajouté (wordfrequency_en.txt). La qualité du dictionnaire est primordiale pour la qualité de correction. Afin d'atteindre ces deux sources de données ont été combinées par intersection: Google Books NGRAM Data qui fournit des fréquences de mots représentatives (mais contient de nombreuses entrées avec des erreurs d'orthographe) et des listes de mots orientées par vérificateur orthographique qui assurent un véritable vocabulaire anglais (mais ne contenaient pas de fréquences de mots requis pour le classement des suggestions sur la même distance de modification).
DictionaryItem.Count a été changé de INT32 à INT64 pour la compatibilité avec les dictionnaires dérivés des données Google Ngram.

Symspell est apporté par Seekstorm - la recherche haute performance en tant qu'API de service et de recherche

Développer

Informations supplémentaires

Version v6.7.2
Type Autre code source
Date de mise à jour 2025-01-30
taille 11.03MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout