Heritrix は、Internet Archive のオープンソースで拡張可能な Web スケールのアーカイブ品質の Web クローラー プロジェクトです。ヘリトリックス(heritrix と綴られることもあり、heratrix/heritix/heretix/heratix と綴られることもあります)は、相続人(相続する女性)を表す古語です。私たちのクローラーは、将来の研究者や世代の利益のために、私たちの文化のデジタル成果物を収集して保存することを目指しているため、この名前は適切であるように思えました。
Heritrix は、 robots.txt
除外ディレクティブ†および META nofollow タグを尊重するように設計されています。クロールによってシード サイトにかかる負荷を考慮し、それに応じてポリティネス ポリシーを設定してください。また、クロールによって悪影響を受ける可能性のあるサイトがあなたに連絡したり、それに応じてサーバーの動作を調整したりできるように、 User-Agent
連絡先情報でクロールを常に識別してください。
† robots.txt の新しいワイルドカード拡張子はまだサポートされていません。
リリースに関する情報はここでご覧いただけます。
Heritrix はフリー ソフトウェアです。 Apache ライセンス バージョン 2.0 の条件に基づいて再配布したり、変更したりすることができます。
一部の個別のソース コード ファイルは、他のライセンスの対象となるか、他のライセンスに基づいて提供されます。詳細については、同梱のLICENSE.txt
ファイルを参照してください。
Heritrix は、依存するライブラリとともに配布されます。ライブラリは、リリース配布のlib
ディレクトリにあり、 lib
ディレクトリにライブラリとともに含まれているそれぞれのライセンスの条件に基づいて使用されます。