继承人3
3.5.0
Heritrix 是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目。 Heritrix(有时拼写为heretrix,或拼写或误读为heratrix/heritix/heretix/heratix)是一个古词,意为女继承人(继承的女性)。由于我们的爬虫旨在收集和保存我们文化的数字文物,以造福未来的研究人员和几代人,因此这个名字似乎很合适。
Heritrix 的设计遵循robots.txt
排除指令†和 META nofollow 标签。请考虑您的爬网将给种子网站带来的负载,并相应地设置礼貌策略。另外,请始终User-Agent
中的联系信息来识别您的爬网,以便可能受到您的爬网不利影响的网站可以与您联系或相应地调整其服务器行为。
†尚不支持 robots.txt 的较新通配符扩展。
有关版本的信息可以在此处找到。
Heritrix 是免费软件;您可以根据 Apache 许可证 2.0 版的条款重新分发和/或修改它
某些单独的源代码文件受其他许可证的约束或根据其他许可证提供。有关详细信息,请参阅随附的LICENSE.txt
文件。
Heritrix 与其依赖的库一起分发。这些库可以在发行版的lib
目录下找到,并根据各自的许可证条款使用,这些许可证与库一起包含在lib
目录中。