Heritrix es el proyecto de rastreador web de código abierto, extensible, a escala web y con calidad de archivo de Internet Archive. Heritrix (a veces escrito heretrix, o mal escrito o mal escrito como heratrix/heritix/heretix/heratix) es una palabra arcaica para heredera (mujer que hereda). Dado que nuestro rastreador busca recopilar y preservar los artefactos digitales de nuestra cultura para el beneficio de futuras generaciones e investigadores, este nombre parecía apropiado.
Heritrix está diseñado para respetar las directivas de exclusión robots.txt
† y las etiquetas META nofollow. Considere la carga que su rastreo colocará en los sitios iniciales y establezca políticas de cortesía en consecuencia. Además, identifique siempre su rastreo con información de contacto en el User-Agent
para que los sitios que puedan verse afectados negativamente por su rastreo puedan comunicarse con usted o adaptar el comportamiento de su servidor en consecuencia.
† La nueva extensión comodín de robots.txt aún no es compatible.
La información sobre los lanzamientos se puede encontrar aquí.
Heritrix es software libre; puedes redistribuirlo y/o modificarlo bajo los términos de la Licencia Apache, Versión 2.0
Algunos archivos de código fuente individuales están sujetos a otras licencias o se ofrecen bajo ellas. Consulte el archivo LICENSE.txt
incluido para obtener más información.
Heritrix se distribuye con las bibliotecas de las que depende. Las bibliotecas se pueden encontrar en el directorio lib
en la distribución de lanzamiento y se utilizan según los términos de sus respectivas licencias, que se incluyen junto con las bibliotecas en el directorio lib
.