Browsertrix 是一种云原生、高保真、基于浏览器的爬网服务,旨在使每个人都能更轻松、更容易地进行 Web 归档。
该服务提供 API 和 UI,用于安排爬网和查看结果,以及管理爬网过程的各个方面。该系统提供了围绕爬行的编排和管理,而实际爬行是使用针对每次爬行启动的 Browsertrix Crawler 容器执行的。
有关功能概述以及有关如何注册 Webrecorder 托管的 Browsertrix 服务的信息,请参阅 webrecorder.net/browsertrix。
有关使用、部署和开发 Browsertrix 的完整文档可在 docs.browsertrix.com 上找到。
我们的文档是使用 Material for MKDocs 创建的。
最新的部署文档可从 docs.browsertrix.com/deploy 获取。
这些文档涵盖了使用 Kubernetes 在不同环境中部署 Browsertrix,从单节点设置到云中的可扩展集群。
早期,Browsertrix 还支持 Docker Compose 和基于 podman 的部署。由于在不同设置之间维护功能奇偶校验的复杂性,以及各种 Kubernetes 部署选项可用且易于部署(即使在单台计算机上),此功能已被弃用。
让 Browsertrix 的部署尽可能简单仍然是一个关键目标,我们欢迎就如何进一步改进 Kubernetes 部署选项提出建议。
如果您只想尝试运行单个爬网,您可能需要先尝试 Browsertrix Crawler 来测试爬网功能。
尽管系统和后端 API 相当稳定,但我们正在开发许多附加功能。请参阅 GitHub 问题和此 GitHub 项目,了解我们当前的项目计划和任务。
本地开发入门指南可在 docs.browsertrix.com/develop 上找到。
我们使用 Weblate 来管理翻译贡献。
Browsertrix 在 AGPLv3 许可证下可用。
文档根据 Creative Commons Attribution 4.0 International License 提供