Mini Site Searcher es un indexador de sitios y un motor de búsqueda simple, que rastreará y almacenará en caché automáticamente el contenido de su sitio web y proporcionará una funcionalidad de búsqueda a través de una API REST.
Se puede utilizar para proporcionar la funcionalidad de búsqueda para blogs de sitios estáticos o para crear una base de conocimientos personales con capacidad de búsqueda,...
Primero, debe crear un archivo .env
para describir cómo desea configurar el rastreador.
Por ejemplo, con la siguiente configuración, queremos configurar un indexador para un sitio web en https://my.blog
, el rastreador comenzará a buscar en la página https://my.blog/index.html
y encontrará todos los enlace que tiene /posts
en su URL, por lo tanto, el selector de CSS debe ser a[href*=/posts]
. Y al seguir cada uno de los enlaces, el rastreador obtendrá el contenido de texto de cualquier etiqueta <article class="main-content">
.
BASE_URL="https://my.blog"
ENTRY_POINT="https://my.blog/index.html"
LINK_SEARCH_PATTERN="a[href*='/posts']"
MAIN_CONTENT_PATTERN="article.main-content"
Luego, ejecute el servidor:
cargo run
Después del inicio, el rastreador se activará y es posible que tarde un poco en finalizar la indexación; también se proporcionará una API REST en el puerto predeterminado 3366
, o lo que sea en su variable de entorno PORT
. Para buscar, realice una solicitud GET
como esta:
GET /?keyword=<something>
El programa tiene dos componentes: