Téléchargement SeekStorm - Téléchargement du code source SeekStorm

SeekStorm est une bibliothèque de recherche en texte intégral open source inférieure à la milliseconde et un serveur multi-tenant implémenté dans Rust .

Développement commencé en 2015, en production depuis 2020, port Rust en 2023, open source en 2024, travail en cours.

SeekStorm est open source sous licence Apache License 2.0

Articles de blog : SeekStorm est désormais Open Source et SeekStorm obtient la recherche à facettes, la recherche de proximité géographique et le tri des résultats.

Bibliothèque de recherche haute performance SeekStorm

Recherche en texte intégral
Véritable recherche en temps réel, avec un impact négligeable sur les performances
Indexation incrémentielle
Indexation et recherche multithread
Numéro de champ, longueur de champ et taille d'index illimités
Magasin de documents compressés : ZStandard
Requêtes booléennes : ET, OU, PHRASE, NON
Classement BM25F et BM25F_Proximity
Filtrage de champs
Recherche à facettes : Comptage et filtrage des facettes de plage de chaînes et de valeurs numériques (avec agrégation Histogramme/Bucket et Min/Max)
Tri des résultats par n'importe quel champ, ascendant ou décroissant, plusieurs champs combinés par "tie-break".
Recherche, filtrage et tri de géoproximité.
Tokenizer avec segmentation de mots chinois
Extraits KWIC, mise en évidence
Synonymes unidirectionnels et multidirectionnels
Indice à l'échelle d'un milliard
Indépendant de la langue
Clés API
API RESTful avec CORS
Indexer soit dans la RAM, soit dans les fichiers mappés en mémoire
Multiplateforme (Windows, Linux, MacOS)
Prise en charge de l'accélération matérielle SIMD (Single Instruction, Multiple Data),
à la fois pour x86-64 (AMD64 et Intel 64) et AArch64 (ARM, Apple Silicon).
Évolutivité sur une seule machine : traitement de milliers de requêtes simultanées avec une faible latence à partir d'un seul serveur standard, sans avoir besoin de clusters ou d'accélérateurs matériels propriétaires.

Types de requêtes

OU union par disjonction
ET intersection de conjonction
"" phrase
- PAS

Types de résultats

TopK
Compter
TopKCount

Serveur de recherche multi-tenant SeekStorm

Indexation et recherche via l'API RESTful
Ingérez des fichiers de données locaux aux formats JSON, JSON délimité par une nouvelle ligne (ndjson) et JSON concaténé via la commande de console.
Ingérez des fichiers PDF locaux via la commande de console (un seul fichier ou tous les fichiers d'un répertoire).
Gestion d'index multi-locataires
Gestion des clés API
Serveur Web intégré et interface utilisateur Web pour rechercher et afficher les résultats de n'importe quel index sans codage.
Multiplateforme : fonctionne sous Linux, Windows et macOS (autres systèmes d'exploitation non testés)

Pourquoi SeekStorm ?

Performance
Latence plus faible, débit plus élevé, coût et consommation d'énergie réduits, en particulier. pour les requêtes multi-champs et simultanées.
De faibles latences de queue garantissent une expérience utilisateur fluide et évitent la perte de clients et de revenus.
Alors que certains s'appuient sur des accélérateurs matériels propriétaires (FPGA/ASIC) ou des clusters pour améliorer les performances,
SeekStorm obtient une amélioration similaire de manière algorithmique sur un seul serveur de base.

Cohérence
Aucune latence de requête imprévisible pendant et après l'indexation de gros volumes, car SeekStorm ne nécessite pas de fusions de segments gourmandes en ressources.
Latences stables : pas de coûts de démarrage à froid dus à une compilation juste à temps, pas de retards imprévisibles dans le garbage collection.

Mise à l'échelle
Maintient une faible latence, un débit élevé et une faible consommation de RAM, même pour les index à l'échelle d'un milliard.
Numéro de champ, longueur de champ et taille d'index illimités.

Pertinence
Le classement de proximité des termes fournit des résultats plus pertinents que le BM25.

En temps réel
Véritable recherche en temps réel, par opposition à NRT : chaque document indexé est immédiatement consultable, même avant et pendant la validation.

Repères

Référence

Classement

le qui : classement vanille BM25 vs classement de proximité SeekStorm

Méthodologie
Comparaison de différentes bibliothèques de moteurs de recherche open source (recherche lexicale BM25) à l'aide du search_benchmark_game open-source développé par Tantivy et Jason Wolfe.

Avantages

en utilisant un benchmark open source éprouvé utilisé par d'autres bibliothèques de recherche à des fins de comparaison
adaptateurs écrits principalement par les auteurs des bibliothèques de recherche eux-mêmes pour un maximum d'authenticité et de fidélité
les résultats peuvent être reproduits par chacun sur sa propre infrastructure
résultats détaillés par requête, par type de requête et par type de résultat pour étudier le potentiel d'optimisation

Résultats de référence détaillés https://seekstorm.github.io/search-benchmark-game/

Référentiel de code de référence https://github.com/SeekStorm/search-benchmark-game/

Consultez nos articles de blog pour des informations plus détaillées : SeekStorm est désormais Open Source et SeekStorm obtient la recherche à facettes, la recherche de proximité géographique et le tri des résultats.

Pourquoi la latence est importante

La vitesse de recherche peut être suffisante pour une seule recherche. En dessous de <10 ms, les gens ne peuvent plus déterminer la latence. La latence de recherche peut être faible par rapport à la latence du réseau Internet.
Mais les performances du moteur de recherche sont toujours importantes lorsqu'il est utilisé dans un serveur ou un service pour de nombreux utilisateurs simultanés et demande une mise à l'échelle, un débit et une faible charge du processeur et un coût maximum.
Grâce à une technologie de recherche performante, vous pouvez servir de nombreux utilisateurs simultanés, avec une faible latence avec moins de serveurs, moins de coûts et moins de consommation d'énergie, et une empreinte carbone réduite.
Il garantit également une faible latence, même pour les requêtes complexes et difficiles : recherche instantanée, recherche floue, recherche à facettes et union/intersection/expression de termes très fréquents.
Outre les latences moyennes, nous devons également réduire les latences finales, qui sont souvent négligées, mais peuvent entraîner une perte de clients et de revenus et une mauvaise expérience utilisateur.
Il est toujours conseillé de concevoir votre infrastructure de recherche avec suffisamment de marge de performance, pour contrôler ces latences de queue, même pendant les périodes de charge simultanée élevée.
De plus, même si un utilisateur humain ne remarque pas la latence, cela peut quand même faire une grande différence dans les marchés boursiers autonomes, les applications de défense ou RAG qui nécessitent plusieurs requêtes.

La recherche par mots-clés reste un élément essentiel de l’avènement de la recherche vectorielle et des LLM

Malgré ce que les cycles de battage médiatique https://www.bitecode.dev/p/hype-cycles veulent vous faire croire, la recherche par mot clé n'est pas morte, car NoSQL n'était pas la mort de SQL.

Vous devez conserver une boîte à outils et choisir le meilleur outil pour votre tâche à accomplir. https://seekstorm.com/blog/vector-search-vs-keyword-search1/

La recherche par mot-clé n'est qu'un filtre pour un ensemble de documents, renvoyant ceux dans lesquels certains mots-clés apparaissent, généralement combinés avec une métrique de classement telle que BM25. Une fonctionnalité très basique et essentielle, très difficile à mettre en œuvre à grande échelle avec une faible latence. La fonctionnalité étant si basique, il existe un nombre illimité de champs d’application. C'est un composant à utiliser avec d'autres composants. Il existe des cas d'utilisation qui peuvent être mieux résolus aujourd'hui avec la recherche vectorielle et les LLM, mais pour beaucoup d'autres, la recherche par mot clé reste la meilleure solution. La recherche par mot clé est exacte, sans perte et très rapide, avec une meilleure mise à l'échelle, une meilleure latence, un coût et une consommation d'énergie réduits. La recherche de vecteurs fonctionne avec une similarité sémantique, renvoyant des résultats avec une proximité et une probabilité données.

Recherche par mot-clé (recherche lexicale)

Si vous recherchez des résultats exacts comme des noms propres, des numéros, des plaques d'immatriculation, des noms de domaine et des expressions (par exemple, détection de plagiat), alors la recherche par mot clé est votre amie. La recherche de vecteurs, en revanche, enterrera le résultat exact que vous recherchez parmi une myriade de résultats qui ne sont que d'une manière ou d'une autre liés sémantiquement. Dans le même temps, si vous ne connaissez pas les termes exacts ou si vous êtes intéressé par un sujet, une signification ou un synonyme plus large, quels que soient les termes exacts utilisés, la recherche par mot clé échouera.

 - works with text data only
- unable to capture context, meaning and semantic similarity
- low recall for semantic meaning
+ perfect recall for exact keyword match 
+ perfect precision (for exact keyword match)
+ high query speed and throughput (for large document numbers)
+ high indexing speed (for large document numbers)
+ incremental indexing fully supported
+ smaller index size
+ lower infrastructure cost per document and per query, lower energy consumption
+ good scalability (for large document numbers)
+ perfect for exact keyword and phrase search, no false positives
+ perfect explainability
+ efficient and lossless for exact keyword and phrase search
+ works with new vocabulary out of the box
+ works with any language out of the box
+ works perfect with long-tail vocabulary out of the box
+ works perfect with any rare language or domain-specific vocabulary out of the box
+ RAG (Retrieval-augmented generation) based on keyword search offers unrestricted real-time capabilities.

Recherche de vecteurs

La recherche vectorielle est parfaite si vous ne connaissez pas les termes de requête exacts ou si vous êtes intéressé par un sujet, une signification ou un synonyme plus large, quels que soient les termes de requête exacts utilisés. Mais si vous recherchez des termes exacts, par exemple des noms propres, des numéros, des plaques d'immatriculation, des noms de domaine et des expressions (par exemple, détection de plagiat), vous devez toujours utiliser la recherche par mots clés. La recherche vectorielle ne fera qu’enterrer le résultat exact que vous recherchez parmi une myriade de résultats qui ne sont liés que d’une manière ou d’une autre. Il a un bon rappel, mais une faible précision et une latence plus élevée. Il est sujet aux faux positifs, par exemple lors de la détection de plagiat, car les mots exacts et l'ordre des mots sont perdus.

La recherche de vecteurs vous permet de rechercher non seulement du texte similaire, mais tout ce qui peut être transformé en vecteur : texte, images (reconnaissance faciale, empreintes digitales), audio et vous permet de faire des choses magiques comme reine - femme + homme = roi .

 + works with any data that can be transformed to a vector: text, image, audio ...
+ able to capture context, meaning, and semantic similarity
+ high recall for semantic meaning (90%)
- lower recall for exact keyword match (for Approximate Similarity Search)
- lower precision (for exact keyword match)
- lower query speed and throughput (for large document numbers)
- lower indexing speed (for large document numbers)
- incremental indexing is expensive and requires rebuilding the entire index periodically, which is extremely time-consuming and resource intensive.
- larger index size
- higher infrastructure cost per document and per query, higher energy consumption
- limited scalability (for large document numbers)
- unsuitable for exact keyword and phrase search, many false positives
- low explainability makes it difficult to spot manipulations, bias and root cause of retrieval/ranking problems
- inefficient and lossy for exact keyword and phrase search
- Additional effort and cost to create embeddings and keep them updated for every language and domain. Even if the number of indexed documents is small, the embeddings have to created from a large corpus before nevertheless.
- Limited real-time capability due to limited recency of embeddings
- works only with vocabulary known at the time of embedding creation
- works only with the languages of the corpus from which the embeddings have been derived
- works only with long-tail vocabulary that was sufficiently represented in the corpus from which the embeddings have been derived
- works only with rare language or domain-specific vocabulary that was sufficiently represented in the corpus from which the embeddings have been derived
- RAG (Retrieval-augmented generation) based on vector search offers only limited real-time capabilities, as it can't process new vocabulary that arrived after the embedding generation

La recherche vectorielle ne remplace pas la recherche par mot-clé, mais constitue un complément complémentaire . Il est préférable de l'utiliser dans le cadre d'une solution hybride où les atouts des deux approches sont combinés. La recherche par mot-clé n’est pas obsolète, mais a fait ses preuves .

Pourquoi la rouille

Nous avons (partiellement) porté la base de code SeekStorm de C# vers Rust

Facteur 2..4x de gain de performances par rapport à C# (latence et débit)
Pas de première exécution lente (pas de coûts de démarrage à froid dus à une compilation juste à temps)
Latences stables (pas de délais de récupération de place)
Moins de consommation de mémoire (pas de montée en puissance jusqu'au prochain garbage collection)
Aucune dépendance de framework (machines virtuelles CLR ou JVM)
Compilation à l'avance au lieu de juste à temps
Langage sécurisé pour la mémoire https://www.whitehouse.gov/oncd/briefing-room/2024/02/26/press-release-technical-report/

Rust est idéal pour les applications critiques en termes de performances qui traitent du Big Data et/ou de nombreux utilisateurs simultanés. Les algorithmes rapides brilleront encore plus avec un langage de programmation soucieux des performances ?

Architecture

voir ARCHITECTURE.md

Bâtiment

 cargo build --release

ATTENTION : assurez-vous de définir la variable d'environnement MASTER_KEY_SECRET sur un secret, sinon vos clés API générées seront compromises.

Documentation

https://docs.rs/seekstorm

Construire la documentation

 cargo doc --no-deps

Accéder à la documentation localement

SeekStormtargetdocseekstormindex.html
SeekStormtargetdocseekstorm_serverindex.html

Utilisation de la bibliothèque

Ajoutez les caisses requises à votre projet

cargo add seekstorm
cargo add tokio
cargo add serde_json

 use std :: { collections :: HashSet , error :: Error , path :: Path , sync :: Arc } ;
use seekstorm :: { index :: * , search :: * , highlighter :: * , commit :: Commit } ;
use tokio :: sync :: RwLock ;

utiliser un runtime Rust asynchrone

 # [ tokio :: main ]
async fn main ( ) -> Result < ( ) , Box < dyn Error + Send + Sync > > {

créer un index

 let index_path= Path :: new ( "C:/index/" ) ;

let schema_json = r#"
[{"field":"title","field_type":"Text","stored":false,"indexed":false},
{"field":"body","field_type":"Text","stored":true,"indexed":true},
{"field":"url","field_type":"Text","stored":false,"indexed":false}]"# ;
let schema=serde_json :: from_str ( schema_json ) . unwrap ( ) ;

let meta = IndexMetaObject {
    id : 0 ,
    name : "test_index" . to_string ( ) ,
    similarity : SimilarityType :: Bm25f ,
    tokenizer : TokenizerType :: AsciiAlphabetic ,
    access_type : AccessType :: Mmap ,
} ;

let serialize_schema= true ;
let segment_number_bits1= 11 ;
let index= create_index ( index_path , meta , & schema , serialize_schema , & Vec :: new ( ) , segment_number_bits1 , false ) . unwrap ( ) ;
let _index_arc = Arc :: new ( RwLock :: new ( index ) ) ;

ouvrir l'index (ou créer un index)

 let index_path= Path :: new ( "C:/index/" ) ;
let mut index_arc= open_index ( index_path , false ) . await . unwrap ( ) ;

indexer les documents

 let documents_json = r#"
[{"title":"title1 test","body":"body1","url":"url1"},
{"title":"title2","body":"body2 test","url":"url2"},
{"title":"title3 test","body":"body3 test","url":"url3"}]"# ;
let documents_vec=serde_json :: from_str ( documents_json ) . unwrap ( ) ;

index_arc . index_documents ( documents_vec ) . await ;

valider des documents

index_arc . commit ( ) . await ;

index de recherche

 let query= "test" . to_string ( ) ;
let offset= 0 ;
let length= 10 ;
let query_type= QueryType :: Intersection ; 
let result_type= ResultType :: TopkCount ;
let include_uncommitted= false ;
let field_filter= Vec :: new ( ) ;
let result_object = index_arc . search ( query , query_type , offset , length , result_type , include_uncommitted , field_filter ) . await ;

afficher les résultats

 let highlights : Vec < Highlight > = vec ! [
    Highlight {
        field: "body" .to_string ( ) ,
        name: String ::new ( ) ,
        fragment_number: 2 ,
        fragment_size: 160 ,
        highlight_markup: true ,
    } ,
] ;    

let highlighter= Some ( highlighter ( & index_arc , highlights , result_object . query_term_strings ) ) ;
let return_fields_filter= HashSet :: new ( ) ;
let mut index=index_arc . write ( ) . await ;
for result in result_object . results . iter ( ) {
  let doc=index . get_document ( result . doc_id , false , & highlighter , & return_fields_filter ) . unwrap ( ) ;
  println ! ( "result {} rank {} body field {:?}" , result.doc_id,result.score, doc.get ( "body" ) ) ;
}

recherche multithread

 let query_vec= vec ! [ "house" .to_string ( ) , "car" .to_string ( ) , "bird" .to_string ( ) , "sky" .to_string ( ) ] ;
let offset= 0 ;
let length= 10 ;
let query_type= QueryType :: Union ; 
let result_type= ResultType :: TopkCount ;
let thread_number = 4 ;
let permits = Arc :: new ( Semaphore :: new ( thread_number ) ) ;
for query in query_vec {
    let permit_thread = permits . clone ( ) . acquire_owned ( ) . await . unwrap ( ) ;

    let query_clone = query . clone ( ) ;
    let index_arc_clone = index_arc . clone ( ) ;
    let query_type_clone = query_type . clone ( ) ;
    let result_type_clone = result_type . clone ( ) ;
    let offset_clone = offset ;
    let length_clone = length ;

    tokio :: spawn ( async move {
        let rlo = index_arc_clone
            . search (
                query_clone ,
                query_type_clone ,
                offset_clone ,
                length_clone ,
                result_type_clone ,
                false ,
                Vec :: new ( ) ,
            )
            . await ;

        println ! ( "result count {}" , rlo.result_count ) ;
        
        drop ( permit_thread ) ;
    } ) ;
}

indexer le fichier JSON au format JSON, JSON délimité par une nouvelle ligne et JSON concaténé

 let file_path= Path :: new ( "wiki_articles.json" ) ;
let _ =index_arc . ingest_json ( file_path ) . await ;

indexer tous les fichiers PDF dans le répertoire et les sous-répertoires

convertit le pdf en texte et l'indexe
extrait le titre de la balise méta, de la première ligne de texte ou du nom de fichier
extrait la date de création de la balise méta ou de la date de création du fichier (horodatage Unix : le nombre de secondes depuis le 1er janvier 1970)
copie tous les fichiers PDF ingérés dans le sous-répertoire "files" de l'index
le schéma d'index suivant est requis (et créé automatiquement par la commande ingest de la console) :

 [
   {
     "field" : " title " ,
     "stored" : true ,
     "indexed" : true ,
     "field_type" : " Text " ,
     "boost" : 10
   },
   {
     "field" : " body " ,
     "stored" : true ,
     "indexed" : true ,
     "field_type" : " Text "
   },
   {
     "field" : " url " ,
     "stored" : true ,
     "indexed" : false ,
     "field_type" : " Text "
   },
   {
     "field" : " date " ,
     "stored" : true ,
     "indexed" : false ,
     "field_type" : " Timestamp " ,
     "facet" : true
   }
 ]

 let file_path= Path :: new ( "C:/Users/johndoe/Downloads" ) ;
 let _ =index_arc . ingest_pdf ( file_path ) . await ;

indexer le fichier PDF

 let file_path= Path :: new ( "C:/test.pdf" ) ;
let file_date= Utc :: now ( ) . timestamp ( ) ;
let _ =index_arc . index_pdf_file ( file_path ) . await ;

indexer les octets du fichier PDF

 let file_date= Utc :: now ( ) . timestamp ( ) ;
let document = fs :: read ( file_path ) . unwrap ( ) ;
let _ =index_arc . index_pdf_bytes ( file_path , file_date , & document ) . await ;

obtenir les octets du fichier PDF

 let doc_id= 0 ;
let file=index . get_file ( doc_id ) . unwrap ( ) ;

effacer l'index

index . clear_index ( ) ;

supprimer l'index

index . delete_index ( ) ;

fermer l'index

index . close_index ( ) ;

chaîne de version de la bibliothèque seekstorm

 let version= version ( ) ;
println ! ( "version {}" ,version ) ;

Recherche à facettes - Démarrage rapide

Les facettes sont définies à 3 endroits différents :

les champs de facettes sont définis dans le schéma à create_index,
les valeurs des champs de facettes sont définies dans index_document au moment de l'index,
les paramètres query_facets/facet_filter sont spécifiés au moment de la requête.
Les facettes sont ensuite renvoyées dans l'objet résultat de la recherche.

Un exemple fonctionnel minimal d’indexation et de recherche à facettes ne nécessite que 60 lignes de code. Mais tout comprendre à partir de la seule documentation pourrait être fastidieux. C'est pourquoi nous fournissons ici un exemple de démarrage rapide :

Ajoutez les caisses requises à votre projet

cargo add seekstorm
cargo add tokio
cargo add serde_json

Ajouter des déclarations d'utilisation

 use std :: { collections :: HashSet , error :: Error , path :: Path , sync :: Arc } ;
use seekstorm :: { index :: * , search :: * , highlighter :: * , commit :: Commit } ;
use tokio :: sync :: RwLock ;

utiliser un runtime Rust asynchrone

 # [ tokio :: main ]
async fn main ( ) -> Result < ( ) , Box < dyn Error + Send + Sync > > {

créer un index

 let index_path= Path :: new ( "C:/index/" ) ; //x

let schema_json = r#"
[{"field":"title","field_type":"Text","stored":false,"indexed":false},
{"field":"body","field_type":"Text","stored":true,"indexed":true},
{"field":"url","field_type":"Text","stored":true,"indexed":false},
{"field":"town","field_type":"String","stored":false,"indexed":false,"facet":true}]"# ;
let schema=serde_json :: from_str ( schema_json ) . unwrap ( ) ;

let meta = IndexMetaObject {
    id : 0 ,
    name : "test_index" . to_string ( ) ,
    similarity : SimilarityType :: Bm25f ,
    tokenizer : TokenizerType :: AsciiAlphabetic ,
    access_type : AccessType :: Mmap ,
} ;

let serialize_schema= true ;
let segment_number_bits1= 11 ;
let index= create_index ( index_path , meta , & schema , serialize_schema , & Vec :: new ( ) , segment_number_bits1 , false ) . unwrap ( ) ;
let mut index_arc = Arc :: new ( RwLock :: new ( index ) ) ;

indexer les documents

 let documents_json = r#"
[{"title":"title1 test","body":"body1","url":"url1","town":"Berlin"},
{"title":"title2","body":"body2 test","url":"url2","town":"Warsaw"},
{"title":"title3 test","body":"body3 test","url":"url3","town":"New York"}]"# ;
let documents_vec=serde_json :: from_str ( documents_json ) . unwrap ( ) ;

index_arc . index_documents ( documents_vec ) . await ;

valider des documents

index_arc . commit ( ) . await ;

index de recherche

 let query= "test" . to_string ( ) ;
let offset= 0 ;
let length= 10 ;
let query_type= QueryType :: Intersection ; 
let result_type= ResultType :: TopkCount ;
let include_uncommitted= false ;
let field_filter= Vec :: new ( ) ;
let query_facets = vec ! [ QueryFacet :: String { field: "age" .to_string ( ) ,prefix: "" .to_string ( ) ,length: u16 :: MAX } ] ;
let facet_filter= Vec :: new ( ) ;
//let facet_filter = vec![FacetFilter::String { field: "town".to_string(),filter: vec!["Berlin".to_string()],}];

let facet_result_sort= Vec :: new ( ) ;

let result_object = index_arc . search ( query , query_type , offset , length , result_type , include_uncommitted , field_filter , query_facets , facet_filter ) . await ;

afficher les résultats

 let highlights : Vec < Highlight > = vec ! [
        Highlight {
            field: "body" .to_owned ( ) ,
            name: String ::new ( ) ,
            fragment_number: 2 ,
            fragment_size: 160 ,
            highlight_markup: true ,
        } ,
    ] ;    

let highlighter2= Some ( highlighter ( & index_arc , highlights , result_object . query_terms ) ) ;
let return_fields_filter= HashSet :: new ( ) ;
let index=index_arc . write ( ) . await ;
for result in result_object . results . iter ( ) {
  let doc=index . get_document ( result . doc_id , false , & highlighter2 , & return_fields_filter ) . unwrap ( ) ;
  println ! ( "result {} rank {} body field {:?}" , result.doc_id,result.score, doc.get ( "body" ) ) ;
}

afficher les facettes

 println ! ( "{}" , serde_json::to_string_pretty ( &result_object.facets ) .unwrap ( ) ) ;

fin de la fonction principale

   Ok ( ( ) )
}

Heure de démonstration

Créez un moteur de recherche Wikipédia avec le serveur SeekStorm

Un didacticiel rapide, étape par étape, sur la façon de créer un moteur de recherche Wikipédia à partir d'un corpus Wikipédia à l'aide du serveur SeekStorm en 5 étapes simples.

Télécharger SeekStorm

Téléchargez SeekStorm depuis le référentiel GitHub
Décompressez dans le répertoire de votre choix, ouvrez dans le code Visual Studio.

ou bien

 git clone https://github.com/SeekStorm/SeekStorm.git

Construire SeekStorm

Installez Rust (s'il n'est pas encore présent) : https://www.rust-lang.org/tools/install

Dans le terminal de Visual Studio Code tapez :

 cargo build --release

Obtenir le corpus Wikipédia

Corpus Wikipédia anglais prétraité (5 032 105 documents, 8,28 Go décompressés). Bien que wiki-articles.json ait une extension .JSON, ce n'est pas un fichier JSON valide. Il s'agit d'un fichier texte, où chaque ligne contient un objet JSON avec les attributs url, title et body. Le format s'appelle ndjson ("Newline délimité JSON").

Télécharger le corpus Wikipédia

Décompressez le corpus Wikipédia.

https://gnuwin32.sourceforge.net/packages/bzip2.htm

 bunzip2 wiki-articles.json.bz2

Déplacez le wiki-articles.json décompressé vers le répertoire de publication

Démarrer le serveur SeekStorm

 cd target/release

 ./seekstorm_server local_ip="0.0.0.0" local_port=80

Indexage

Tapez « ingest » dans la ligne de commande du serveur SeekStorm en cours d'exécution :

 ingest

Cela crée l'index de démonstration et indexe le fichier wikipedia local.

Commencez la recherche dans l'interface Web intégrée

Ouvrez l'interface utilisateur Web intégrée dans le navigateur : http://127.0.0.1

Entrez une requête dans le champ de recherche

Test des points de terminaison de l'API REST

Ouvrez src/seekstorm_server/test_api.rest dans VSC avec l'extension VSC "Rest client" pour exécuter des appels API et inspecter les réponses.

exemples de points de terminaison d'API interactifs

Définissez la « clé API individuelle » dans test_api.rest sur la clé API affichée dans la console du serveur lorsque vous avez tapé « index » ci-dessus.

Supprimer l'index de démonstration

Tapez « supprimer » dans la ligne de commande du serveur SeekStorm en cours d'exécution :

 delete

Arrêter le serveur

Tapez « quitter » dans la ligne de commande du serveur SeekStorm en cours d'exécution.

 quit

Personnalisation

Voulez-vous utiliser quelque chose de similaire pour votre propre projet ? Jetez un œil à la documentation sur l’ingestion et l’interface utilisateur Web.

Créez un moteur de recherche PDF avec le serveur SeekStorm

Un didacticiel rapide étape par étape sur la façon de créer un moteur de recherche PDF à partir d'un répertoire contenant des fichiers PDF à l'aide du serveur SeekStorm.
Rendez tous vos articles scientifiques, ebooks, CV, rapports, contrats, documentations, manuels, lettres, relevés bancaires, factures, bons de livraison consultables - à la maison ou dans votre organisation.

Construire SeekStorm

Installez Rust (s'il n'est pas encore présent) : https://www.rust-lang.org/tools/install

Dans le terminal de Visual Studio Code tapez :

 cargo build --release

Télécharger PDFium

Téléchargez et copiez la bibliothèque Pdfium dans le même dossier que seekstorm_server.exe : https://github.com/bblanchon/pdfium-binaries

Démarrer le serveur SeekStorm

 cd target/release

 ./seekstorm_server local_ip="0.0.0.0" local_port=80

Indexage

Choisissez un répertoire contenant les fichiers PDF que vous souhaitez indexer et rechercher, par exemple vos documents ou votre répertoire de téléchargement.

Tapez « ingest » dans la ligne de commande du serveur SeekStorm en cours d'exécution :

 ingest C:UsersJohnDoeDownloads

Cela crée le pdf_index et indexe tous les fichiers PDF du répertoire spécifié, y compris les sous-répertoires.

Commencez la recherche dans l'interface Web intégrée

Ouvrez l'interface utilisateur Web intégrée dans le navigateur : http://127.0.0.1

Entrez une requête dans le champ de recherche

Supprimer l'index de démonstration

Tapez « supprimer » dans la ligne de commande du serveur SeekStorm en cours d'exécution :

 delete

Arrêter le serveur

Tapez « quitter » dans la ligne de commande du serveur SeekStorm en cours d'exécution.

 quit

Démo en ligne : recherche DeepHN Hacker News

Recherche en texte intégral 30 millions de messages Hacker News ET pages Web liées

DeepHN.org

La démo DeepHN est toujours basée sur la base de code SeekStorm C#.
Nous portons actuellement toutes les fonctionnalités manquantes requises.
Voir la feuille de route ci-dessous.

Feuille de route

Le portage Rust n’est pas encore complet. Les fonctionnalités suivantes sont actuellement portées.

Portage

✅ Supprimer le document
✅ Recherche à facettes
✅ Tri des résultats par n'importe quel champ
✅ Tokenizer de pliage/normalisation de caractères Unicode (diacritiques, accents, trémas, gras, italique, pleine largeur...)
✅ Tokenizer avec segmentation de mots chinois
Plus de types de tokenizer (d'origine)
Suggestion automatique, correction orthographique, recherche instantanée
Recherche floue
Concurrence intra-requête

Améliorations