mini searcher
1.0.0
迷你網站搜尋器是一個簡單的網站索引器和搜尋引擎,它將自動抓取和快取您網站的內容,並透過 REST API 提供搜尋功能。
它可用於提供靜態網站部落格的搜尋功能,或建立可搜尋的個人知識庫,...
首先,您需要建立一個.env
文件,以描述您希望如何設定爬網程式。
例如,使用以下配置,我們要為https://my.blog
網站設定索引器,爬蟲將開始查看https://my.blog/index.html
頁面,並找到所有其 URL 中包含/posts
鏈接,因此,它的CSS 選擇器應該是a[href*=/posts]
。當點擊每個連結時,爬蟲將取得任何<article class="main-content">
標籤的文字內容。
BASE_URL="https://my.blog"
ENTRY_POINT="https://my.blog/index.html"
LINK_SEARCH_PATTERN="a[href*='/posts']"
MAIN_CONTENT_PATTERN="article.main-content"
然後,運行伺服器:
cargo run
啟動後,爬蟲將啟動,可能需要一段時間才能完成索引,REST API 還將在預設連接埠3366
或PORT
環境變數中的任何連接埠上提供服務。要進行搜索,請發出如下所示的GET
請求:
GET /?keyword=<something>
該計劃有兩個組成部分: