Heritrix adalah proyek perayap web sumber terbuka, dapat diperluas, berskala web, dan berkualitas arsip dari Internet Archive. Heritrix (terkadang dieja heretrix, atau salah eja atau salah diucapkan sebagai heratrix/heritix/heretix/heratix) adalah kata kuno untuk ahli waris (wanita yang mewarisi). Karena perayap kami berupaya mengumpulkan dan melestarikan artefak digital budaya kami demi kepentingan peneliti dan generasi mendatang, nama ini sepertinya tepat.
Heritrix dirancang untuk mematuhi arahan pengecualian robots.txt
† dan tag META nofollow. Harap pertimbangkan beban perayapan Anda pada situs awal dan tetapkan kebijakan kesopanan yang sesuai. Selain itu, selalu identifikasi perayapan Anda dengan informasi kontak di User-Agent
sehingga situs yang mungkin terkena dampak buruk perayapan Anda dapat menghubungi Anda atau menyesuaikan perilaku server mereka.
† Ekstensi wildcard terbaru untuk robots.txt belum didukung.
Informasi tentang rilis dapat ditemukan di sini.
Heritrix adalah perangkat lunak gratis; Anda dapat mendistribusikan ulang dan/atau memodifikasinya berdasarkan ketentuan Lisensi Apache, Versi 2.0
Beberapa file kode sumber individual tunduk atau ditawarkan di bawah lisensi lain. Lihat file LICENSE.txt
yang disertakan untuk informasi lebih lanjut.
Heritrix didistribusikan dengan perpustakaan tempat ia bergantung. Perpustakaan dapat ditemukan di bawah direktori lib
dalam distribusi rilis, dan digunakan berdasarkan ketentuan lisensi masing-masing, yang disertakan bersama perpustakaan di direktori lib
.