Browsertrix는 모든 사람이 더 쉽게 웹 보관에 액세스할 수 있도록 설계된 클라우드 기반의 고품질 브라우저 기반 크롤링 서비스입니다.
이 서비스는 크롤링 일정을 예약하고 결과를 확인하며 크롤링 프로세스의 모든 측면을 관리하기 위한 API와 UI를 제공합니다. 이 시스템은 크롤링에 대한 조정 및 관리를 제공하는 반면 실제 크롤링은 각 크롤링에 대해 시작되는 Browsertrix Crawler 컨테이너를 사용하여 수행됩니다.
Webrecorder의 호스팅 Browsertrix 서비스에 등록하는 방법에 대한 기능 개요 및 정보는 webrecorder.net/browsertrix를 참조하세요.
Browsertrix 사용, 배포 및 개발에 대한 전체 문서는 docs.browsertrix.com에서 확인할 수 있습니다.
우리 문서는 MKDocs용 자료로 작성되었습니다.
최신 배포 문서는 docs.browsertrix.com/deploy에서 확인할 수 있습니다.
이 문서에서는 단일 노드 설정부터 클라우드의 확장 가능한 클러스터에 이르기까지 Kubernetes를 사용하여 다양한 환경에 Browsertrix를 배포하는 방법을 다룹니다.
초기에 Browsertrix는 Docker Compose 및 Podman 기반 배포도 지원했습니다. 이는 다양한 설정에서 기능 패리티를 유지하는 복잡성과 단일 시스템에서도 다양한 Kubernetes 배포 옵션을 사용할 수 있고 배포하기 쉽기 때문에 더 이상 사용되지 않습니다.
Browsertrix를 최대한 쉽게 배포하는 것이 핵심 목표이며, Kubernetes 배포 옵션을 더욱 개선할 수 있는 방법에 대한 제안을 환영합니다.
단일 크롤링만 실행하려는 경우 먼저 Browsertrix Crawler를 사용하여 크롤링 기능을 테스트해 볼 수 있습니다.
시스템과 백엔드 API는 상당히 안정적이지만, 우리는 많은 추가 기능을 개발 중입니다. 현재 프로젝트 계획 및 작업은 GitHub 문제와 이 GitHub 프로젝트를 참조하세요.
로컬 개발을 시작하기 위한 가이드는 docs.browsertrix.com/develop에서 확인할 수 있습니다.
우리는 웨블레이트를 사용하여 번역 기여를 관리합니다.
Browsertrix는 AGPLv3 라이선스에 따라 제공됩니다.
문서는 Creative Commons Attribution 4.0 International License에 따라 제공됩니다.