Heritrix — это расширяемый веб-проект интернет-архива архивного качества с открытым исходным кодом. Heritrix (иногда пишется heretrix или пишется с ошибкой или опечаткой как heratrix/heritix/heretix/heratix) — архаичное слово, обозначающее наследницу (женщину, которая наследует). Поскольку наш сканер стремится собирать и сохранять цифровые артефакты нашей культуры на благо будущих исследователей и поколений, это название показалось подходящим.
Heritrix разработан с учетом директив исключения robots.txt
† и мета-тегов nofollow. Учитывайте нагрузку, которую ваше сканирование создаст на исходных сайтах, и установите соответствующие правила вежливости. Кроме того, всегда идентифицируйте свое сканирование с помощью контактной информации в User-Agent
, чтобы сайты, на которые ваше сканирование может оказать негативное влияние, могли связаться с вами или соответствующим образом адаптировать поведение своего сервера.
† Новое расширение подстановочных знаков для файла robots.txt пока не поддерживается.
Информацию о выпусках можно найти здесь.
Heritrix — бесплатное программное обеспечение; вы можете распространять его и/или изменять в соответствии с условиями лицензии Apache версии 2.0.
Некоторые отдельные файлы исходного кода подпадают под действие других лицензий или предлагаются на их основе. Дополнительную информацию см. в прилагаемом файле LICENSE.txt
.
Heritrix распространяется вместе с библиотеками, от которых он зависит. Библиотеки можно найти в каталоге lib
дистрибутива выпуска, и они используются в соответствии с условиями соответствующих лицензий, которые включены вместе с библиотеками в каталог lib
.