Heritrix est le projet d'exploration de sites Web open source, extensible, à l'échelle du Web et de qualité archivistique d'Internet Archive. Heritrix (parfois orthographié heretrix, ou mal orthographié ou mal prononcé comme heratrix/heritix/heretix/heratix) est un mot archaïque pour héritière (femme qui hérite). Puisque notre robot cherche à collecter et à préserver les artefacts numériques de notre culture pour le bénéfice des chercheurs et des générations futures, ce nom semblait approprié.
Heritrix est conçu pour respecter les directives d'exclusion robots.txt
† et les balises META nofollow. Veuillez tenir compte de la charge que votre exploration placera sur les sites de départ et définir des politiques de politesse en conséquence. De plus, identifiez toujours votre exploration avec les informations de contact dans le User-Agent
afin que les sites susceptibles d'être affectés par votre exploration puissent vous contacter ou adapter le comportement de leur serveur en conséquence.
† La nouvelle extension générique de robots.txt n'est pas encore prise en charge.
Des informations sur les versions peuvent être trouvées ici.
Heritrix est un logiciel libre ; vous pouvez le redistribuer et/ou le modifier selon les termes de la licence Apache, version 2.0
Certains fichiers de code source individuels sont soumis ou proposés sous d'autres licences. Consultez le fichier LICENSE.txt
inclus pour plus d’informations.
Heritrix est distribué avec les bibliothèques dont il dépend. Les bibliothèques se trouvent dans le répertoire lib
de la distribution et sont utilisées selon les termes de leurs licences respectives, qui sont incluses aux côtés des bibliothèques dans le répertoire lib
.