Heritrix ist das quelloffene, erweiterbare, webbasierte Webcrawler-Projekt in Archivqualität des Internet Archive. Heritrix (manchmal auch Heretrix geschrieben oder falsch geschrieben oder falsch geschrieben als Heratrix/Heritix/Heretix/Heratix) ist ein archaisches Wort für Erbin (Frau, die erbt). Da unser Crawler darauf abzielt, die digitalen Artefakte unserer Kultur zum Nutzen zukünftiger Forscher und Generationen zu sammeln und zu bewahren, schien dieser Name passend.
Heritrix ist so konzipiert, dass es die robots.txt
Ausschlussanweisungen † und META-Nofollow-Tags respektiert. Bitte berücksichtigen Sie die Belastung, die Ihr Crawl auf den Seed-Sites mit sich bringt, und legen Sie entsprechende Höflichkeitsrichtlinien fest. Identifizieren Sie Ihren Crawl außerdem immer mit Kontaktinformationen im User-Agent
, damit Websites, die von Ihrem Crawl beeinträchtigt sein könnten, Sie kontaktieren oder ihr Serververhalten entsprechend anpassen können.
† Die neuere Wildcard-Erweiterung für robots.txt wird noch nicht unterstützt.
Informationen zu Veröffentlichungen finden Sie hier.
Heritrix ist freie Software; Sie können es unter den Bedingungen der Apache-Lizenz, Version 2.0, weiterverbreiten und/oder ändern
Einige einzelne Quellcodedateien unterliegen anderen Lizenzen oder werden unter anderen Lizenzen angeboten. Weitere Informationen finden Sie in der mitgelieferten Datei LICENSE.txt
.
Heritrix wird mit den Bibliotheken verteilt, von denen es abhängt. Die Bibliotheken befinden sich im lib
-Verzeichnis der Release-Distribution und werden unter den Bedingungen ihrer jeweiligen Lizenzen verwendet, die zusammen mit den Bibliotheken im lib
-Verzeichnis enthalten sind.