Le Mini Site Searcher est un simple indexeur de site et moteur de recherche, qui explorera et mettra automatiquement en cache le contenu de votre site Web et fournira une fonctionnalité de recherche via une API REST.
Il peut être utilisé pour fournir la fonctionnalité de recherche pour les blogs de sites statiques, ou pour créer une base de connaissances personnelle consultable,...
Tout d’abord, vous devez créer un fichier .env
pour décrire comment vous souhaitez configurer le robot d’exploration.
Par exemple, avec la configuration suivante, nous souhaitons configurer un indexeur pour un site Web à l'adresse https://my.blog
, le robot commencera à regarder la page https://my.blog/index.html
et trouvera tous les lien qui a /posts
dans son URL, par conséquent, le sélecteur CSS correspondant doit être a[href*=/posts]
. Et en suivant chacun des liens, le robot obtiendra le contenu textuel de toutes les balises <article class="main-content">
.
BASE_URL="https://my.blog"
ENTRY_POINT="https://my.blog/index.html"
LINK_SEARCH_PATTERN="a[href*='/posts']"
MAIN_CONTENT_PATTERN="article.main-content"
Ensuite, exécutez le serveur :
cargo run
Après le démarrage, le robot d'exploration démarrera et la fin de l'indexation peut prendre un certain temps. Une API REST sera également servie sur le port par défaut 3366
, ou autre dans votre variable d'environnement PORT
. Pour effectuer une recherche, effectuez une requête GET
comme celle-ci :
GET /?keyword=<something>
Le programme comporte deux volets :