繼承人3
3.5.0
Heritrix 是網路檔案館的開源、可擴充、網路規模、檔案品質的網路爬蟲計畫。 Heritrix(有時拼寫為heretrix,或拼寫或誤讀為heratrix/heritix/heretix/heratix)是一個古詞,意為女繼承人(繼承的女性)。由於我們的爬蟲旨在收集和保存我們文化的數位文物,以造福未來的研究人員和幾代人,因此這個名字似乎很合適。
Heritrix 的設計遵循robots.txt
排除指令†和 META nofollow 標籤。請考慮您的爬網將給種子網站帶來的負載,並相應地設置禮貌策略。另外,請務必User-Agent
中的聯絡資訊來識別您的爬網,以便可能受到您的爬網不利影響的網站可以與您聯絡或相應地調整其伺服器行為。
†尚不支援 robots.txt 的較新通配符擴充。
有關版本的資訊可以在此處找到。
Heritrix 是免費軟體;您可以根據 Apache 授權 2.0 版的條款重新分發和/或修改它
某些單獨的原始碼文件受其他許可證的約束或根據其他許可證提供。有關詳細信息,請參閱隨附的LICENSE.txt
檔案。
Heritrix 與其依賴的函式庫一起分發。這些函式庫可以在發行版的lib
目錄下找到,並根據各自的授權條款使用,這些授權與庫一起包含在lib
目錄中。