Heritrix는 Internet Archive의 확장 가능한 오픈 소스, 웹 규모, 보관 품질의 웹 크롤러 프로젝트입니다. Heritrix(때때로 heretrix로 표기되거나 heratrix/heritix/heretix/heratix로 철자가 틀리거나 잘못 표기됨)는 상속녀(상속받는 여성)를 뜻하는 고대 단어입니다. 우리 크롤러는 미래 연구자와 세대의 이익을 위해 우리 문화의 디지털 유물을 수집하고 보존하려고 하기 때문에 이 이름이 적절해 보였습니다.
Heritrix는 robots.txt
제외 지시문 † 및 META nofollow 태그를 존중하도록 설계되었습니다. 크롤링이 시드 사이트에 가하는 부하를 고려하고 이에 따라 공손 정책을 설정하십시오. 또한 크롤링으로 인해 부정적인 영향을 받을 수 있는 사이트가 귀하에게 연락하거나 이에 따라 서버 동작을 조정할 수 있도록 항상 User-Agent
의 연락처 정보로 크롤링을 식별하십시오.
† robots.txt에 대한 최신 와일드카드 확장은 아직 지원되지 않습니다.
릴리스에 대한 정보는 여기에서 확인할 수 있습니다.
Heritrix는 무료 소프트웨어입니다. Apache 라이센스 버전 2.0의 조건에 따라 재배포 및/또는 수정할 수 있습니다.
일부 개별 소스 코드 파일에는 다른 라이선스가 적용되거나 다른 라이선스에 따라 제공됩니다. 자세한 내용은 포함된 LICENSE.txt
파일을 참조하세요.
Heritrix는 의존하는 라이브러리와 함께 배포됩니다. 라이브러리는 릴리스 배포판의 lib
디렉토리에서 찾을 수 있으며 lib
디렉토리의 라이브러리와 함께 포함된 해당 라이센스의 조건에 따라 사용됩니다.