Browsertrix es un servicio de rastreo basado en navegador, de alta fidelidad y nativo de la nube, diseñado para hacer que el archivado web sea más fácil y accesible para todos.
El servicio proporciona una API y una interfaz de usuario para programar rastreos y ver resultados, y administrar todos los aspectos del proceso de rastreo. Este sistema proporciona la orquestación y administración del rastreo, mientras que el rastreo real se realiza mediante contenedores de Browsertrix Crawler, que se inician para cada rastreo.
Consulte webrecorder.net/browsertrix para obtener una descripción general de las funciones e información sobre cómo registrarse en el servicio alojado Browsertrix de Webrecorder.
Los documentos completos para usar, implementar y desarrollar Browsertrix están disponibles en docs.browsertrix.com.
Nuestros documentos se crean con Material para MKDocs.
La documentación de implementación más reciente está disponible en docs.browsertrix.com/deploy.
Los documentos cubren la implementación de Browsertrix en diferentes entornos usando Kubernetes, desde una configuración de un solo nodo hasta clústeres escalables en la nube.
Al principio, Browsertrix también admitía Docker Compose y la implementación basada en podman. Esto quedó obsoleto debido a la complejidad de mantener la paridad de funciones en diferentes configuraciones y a que varias opciones de implementación de Kubernetes estaban disponibles y eran fáciles de implementar, incluso en una sola máquina.
Hacer que la implementación de Browsertrix sea lo más fácil posible sigue siendo un objetivo clave y agradecemos sugerencias sobre cómo podemos mejorar aún más nuestras opciones de implementación de Kubernetes.
Si desea intentar ejecutar un único rastreo, es posible que desee probar Browsertrix Crawler primero para probar las capacidades de rastreo.
Aunque el sistema y la API de backend son bastante estables, estamos trabajando en muchas características adicionales. Consulte los problemas de GitHub y este proyecto de GitHub para conocer nuestro plan y tareas actuales del proyecto.
Las guías para comenzar con el desarrollo local están disponibles en docs.browsertrix.com/develop.
Usamos Weblate para gestionar las contribuciones de traducción.
Browsertrix está disponible bajo la licencia AGPLv3.
La documentación está disponible bajo la licencia internacional Creative Commons Attribution 4.0.