WebMagic(Java爬虫框架) v0.7.2
v0
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
webmagic的主要特色1、完全模块化的设计,强大的可扩展性。
2、核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
3、提供丰富的抽取页面API。
4、无配置,但是可通过POJO+注解形式实现一个爬虫。
5、支持多线程。
6、支持分布式。
7、支持爬取js动态渲染的页面。
8、无框架依赖,可以灵活的嵌入到项目中去。
WebMagic(Java爬虫框架)页面展示