Browsertrix は、Web アーカイブを誰でも簡単にアクセスできるようにするために設計された、クラウドネイティブで忠実度の高いブラウザベースのクロール サービスです。
このサービスは、クロールのスケジュール設定と結果の表示、およびクロール プロセスのあらゆる側面を管理するための API と UI を提供します。このシステムは、クロールに関するオーケストレーションと管理を提供しますが、実際のクロールは、クロールごとに起動される Browsertrix Crawler コンテナーを使用して実行されます。
機能の概要と、Webrecorder のホスト型 Browsertrix サービスにサインアップする方法については、webrecorder.net/browsertrix を参照してください。
Browsertrix の使用、展開、開発に関する完全なドキュメントは、docs.browsertrix.com で入手できます。
私たちのドキュメントは、MKDocs 用のマテリアルを使用して作成されています。
最新の展開ドキュメントは docs.browsertrix.com/deploy で入手できます。
このドキュメントでは、単一ノードのセットアップからクラウド内のスケーラブルなクラスターまで、Kubernetes を使用してさまざまな環境に Browsertrix をデプロイする方法について説明します。
初期の段階では、Browsertrix は Docker Compose と podman ベースのデプロイメントもサポートしていました。これは、さまざまなセットアップ間で機能の同等性を維持することが複雑であること、およびさまざまな Kubernetes デプロイメント オプションが利用可能であり、単一マシン上であってもデプロイが簡単であるため、非推奨になりました。
Browsertrix のデプロイメントを可能な限り簡単にすることが引き続き重要な目標であり、Kubernetes デプロイメント オプションをさらに改善する方法についての提案を歓迎します。
単一のクロールを実行してみようとしている場合は、まず Browsertrix Crawler を試して、クロール機能をテストするとよいでしょう。
システムとバックエンド API はかなり安定していますが、私たちは多くの追加機能に取り組んでいます。現在のプロジェクト計画とタスクについては、GitHub の問題とこの GitHub プロジェクトを参照してください。
ローカル開発を開始するためのガイドは、docs.browsertrix.com/develop で入手できます。
私たちは Weblate を使用して翻訳投稿を管理します。
Browsertrix は、AGPLv3 ライセンスに基づいて利用可能です。
ドキュメントは、クリエイティブ コモンズ表示 4.0 国際ライセンスに基づいて利用可能です。