Browsertrix ist ein cloudnativer, browserbasierter Crawling-Dienst mit hoher Wiedergabetreue, der die Webarchivierung einfacher und für jedermann zugänglicher machen soll.
Der Dienst bietet eine API und eine Benutzeroberfläche zum Planen von Crawls, zum Anzeigen von Ergebnissen und zum Verwalten aller Aspekte des Crawling-Prozesses. Dieses System sorgt für die Orchestrierung und Verwaltung rund um das Crawlen, während das eigentliche Crawlen mithilfe von Browsertrix Crawler-Containern durchgeführt wird, die bei jedem Crawl gestartet werden.
Unter webrecorder.net/browsertrix finden Sie eine Funktionsübersicht und Informationen zur Anmeldung für den gehosteten Browsertrix-Dienst von Webrecorder.
Die vollständigen Dokumente zur Verwendung, Bereitstellung und Entwicklung von Browsertrix sind unter docs.browsertrix.com verfügbar.
Unsere Dokumente werden mit Material für MKDocs erstellt.
Die neueste Bereitstellungsdokumentation ist unter docs.browsertrix.com/deploy verfügbar.
Die Dokumente behandeln die Bereitstellung von Browsertrix in verschiedenen Umgebungen mit Kubernetes, von einem Einzelknoten-Setup bis hin zu skalierbaren Clustern in der Cloud.
Schon früh unterstützte Browsertrix auch Docker Compose und die Podman-basierte Bereitstellung. Dies wurde aufgrund der Komplexität der Aufrechterhaltung der Funktionsparität über verschiedene Setups hinweg abgelehnt und da verschiedene Kubernetes-Bereitstellungsoptionen verfügbar und einfach bereitzustellen sind, sogar auf einem einzelnen Computer.
Die Bereitstellung von Browsertrix so einfach wie möglich zu gestalten, bleibt ein wichtiges Ziel und wir freuen uns über Vorschläge, wie wir unsere Kubernetes-Bereitstellungsoptionen weiter verbessern können.
Wenn Sie nur einen einzelnen Crawl ausführen möchten, sollten Sie zunächst Browsertrix Crawler ausprobieren, um die Crawling-Funktionen zu testen.
Obwohl das System und die Backend-API ziemlich stabil sind, arbeiten wir an vielen zusätzlichen Funktionen. Unseren aktuellen Projektplan und unsere aktuellen Aufgaben finden Sie in den GitHub-Problemen und in diesem GitHub-Projekt.
Anleitungen für den Einstieg in die lokale Entwicklung finden Sie unter docs.browsertrix.com/develop.
Zur Verwaltung von Übersetzungsbeiträgen nutzen wir Weblate.
Browsertrix wird unter der AGPLv3-Lizenz zur Verfügung gestellt.
Die Dokumentation wird unter der Creative Commons Attribution 4.0 International License zur Verfügung gestellt