Browsertrix 是一種雲端原生、高傳真、基於瀏覽器的爬網服務,旨在讓每個人都能更輕鬆、更輕鬆地進行 Web 歸檔。
該服務提供 API 和 UI,用於安排爬網和查看結果,以及管理爬網過程的各個方面。該系統提供了圍繞爬行的編排和管理,而實際爬行是使用針對每次爬行啟動的 Browsertrix Crawler 容器執行的。
有關功能概述以及有關如何註冊 Webrecorder 託管的 Browsertrix 服務的信息,請參閱 webrecorder.net/browsertrix。
有關使用、部署和開發 Browsertrix 的完整文件可在 docs.browsertrix.com 上找到。
我們的文件是使用 Material for MKDocs 建立的。
最新的部署文件可從 docs.browsertrix.com/deploy 取得。
這些文件涵蓋了使用 Kubernetes 在不同環境中部署 Browsertrix,從單一節點設定到雲端中的可擴展叢集。
早期,Browsertrix 也支援 Docker Compose 和基於 podman 的部署。由於在不同設定之間維護功能奇偶校驗的複雜性,以及各種 Kubernetes 部署選項可用且易於部署(即使在單一電腦上),此功能已被棄用。
讓 Browsertrix 的部署盡可能簡單仍然是關鍵目標,我們歡迎就如何進一步改進 Kubernetes 部署選項提出建議。
如果您只想嘗試執行單一爬網,您可能需要先嘗試 Browsertrix Crawler 來測試爬網功能。
儘管系統和後端 API 相當穩定,但我們正在開發許多附加功能。請參閱 GitHub 問題和此 GitHub 項目,以了解我們目前的專案計劃和任務。
本機開發入門指南可在 docs.browsertrix.com/develop 上找到。
我們使用 Weblate 來管理翻譯貢獻。
Browsertrix 在 AGPLv3 授權下可用。
文件依據 Creative Commons Attribution 4.0 International License 提供