Mini Site Searcher adalah pengindeks situs dan mesin pencari sederhana, yang secara otomatis akan merayapi dan menyimpan konten situs web Anda dalam cache dan menyediakan fungsionalitas pencarian melalui REST API.
Ini dapat digunakan untuk menyediakan fungsionalitas pencarian untuk blog situs statis, atau untuk membangun basis pengetahuan pribadi yang dapat dicari,...
Pertama, Anda perlu membuat file .env
, untuk menjelaskan cara Anda ingin menyiapkan crawler.
Misalnya, dengan konfigurasi berikut, kita ingin menyiapkan pengindeks untuk situs web di https://my.blog
, crawler akan mulai melihat halaman https://my.blog/index.html
, dan menemukan semua tautan yang memiliki /posts
di URL-nya, oleh karena itu, pemilih CSS untuk tautan tersebut harus a[href*=/posts]
. Dan saat mengikuti setiap tautan, perayap akan mendapatkan konten teks dari tag <article class="main-content">
apa pun.
BASE_URL="https://my.blog"
ENTRY_POINT="https://my.blog/index.html"
LINK_SEARCH_PATTERN="a[href*='/posts']"
MAIN_CONTENT_PATTERN="article.main-content"
Kemudian, jalankan server:
cargo run
Setelah dimulai, perayap akan aktif dan mungkin perlu beberapa saat untuk menyelesaikan pengindeksan, REST API juga akan disajikan pada port default 3366
, atau apa pun di variabel lingkungan PORT
Anda. Untuk mencari, buat permintaan GET
seperti ini:
GET /?keyword=<something>
Program ini memiliki dua komponen: