mini searcher
1.0.0
迷你站点搜索器是一个简单的站点索引器和搜索引擎,它将自动抓取和缓存您网站的内容,并通过 REST API 提供搜索功能。
它可用于提供静态站点博客的搜索功能,或构建可搜索的个人知识库,...
首先,您需要创建一个.env
文件,以描述您希望如何设置爬网程序。
例如,使用以下配置,我们要为https://my.blog
网站设置索引器,爬虫将开始查看https://my.blog/index.html
页面,并找到所有其 URL 中包含/posts
链接,因此,它的 CSS 选择器应该是a[href*=/posts]
。当点击每个链接时,爬虫将获取任何<article class="main-content">
标签的文本内容。
BASE_URL="https://my.blog"
ENTRY_POINT="https://my.blog/index.html"
LINK_SEARCH_PATTERN="a[href*='/posts']"
MAIN_CONTENT_PATTERN="article.main-content"
然后,运行服务器:
cargo run
启动后,爬虫将启动,可能需要一段时间才能完成索引,REST API 还将在默认端口3366
或PORT
环境变量中的任何端口上提供服务。要进行搜索,请发出如下所示的GET
请求:
GET /?keyword=<something>
该计划有两个组成部分: