Heritrix é o projeto de rastreador da Web de código aberto, extensível, em escala da Web e com qualidade de arquivamento do Internet Archive. Heritrix (às vezes escrito aquitrix, ou escrito incorretamente ou mal dito como heratrix/heritix/heretix/heratix) é uma palavra arcaica para herdeira (mulher que herda). Como nosso rastreador busca coletar e preservar os artefatos digitais de nossa cultura para o benefício de futuros pesquisadores e gerações, esse nome pareceu adequado.
Heritrix foi projetado para respeitar as diretivas de exclusão robots.txt
† e as tags META nofollow. Considere a carga que seu rastreamento colocará nos sites iniciais e defina as políticas de educação de acordo. Além disso, sempre identifique seu rastreamento com informações de contato no User-Agent
para que sites que possam ser afetados negativamente por seu rastreamento possam entrar em contato com você ou adaptar o comportamento do servidor de acordo.
† A extensão curinga mais recente para robots.txt ainda não é compatível.
Informações sobre lançamentos podem ser encontradas aqui.
Heritrix é software livre; você pode redistribuí-lo e/ou modificá-lo sob os termos da Licença Apache, Versão 2.0
Alguns arquivos de código-fonte individuais estão sujeitos ou são oferecidos sob outras licenças. Consulte o arquivo LICENSE.txt
incluído para obter mais informações.
Heritrix é distribuído com as bibliotecas das quais depende. As bibliotecas podem ser encontradas no diretório lib
na distribuição de lançamento e são usadas sob os termos de suas respectivas licenças, que estão incluídas junto com as bibliotecas no diretório lib
.