sparkler下载 - sparkler源代码下载

sparkler

其他源码

1.0.0

下载

烟花

网络爬虫是一种机器人程序，它从网络上获取资源，以便构建搜索引擎、知识库等应用程序。Sparkler（Spark-Crawler 的缩写）是一种新的网络爬虫，它利用了分布式计算的最新进展通过整合 Spark、Kafka、Lucene/Solr、Tika 和 pf4j 等各种 Apache 项目来构建信息检索领域。 Sparkler 是一个可扩展、高度可扩展的高性能网络爬虫，它是 Apache Nutch 的演变，并在 Apache Spark Cluster 上运行。

笔记：

~~Sparkler 正在被提议给 Apache 孵化器。查看提案文件并在此处提供您的建议~~稍后会完成，最终！

Sparkler 的显着特点：

提供更高的性能和容错能力：抓取管道经过重新设计，以利用 Apache Spark 的缓存和容错能力。
支持复杂且近乎实时的分析：内部数据结构是由 Apache Lucene 提供支持的索引存储，具有近实时回答复杂查询的功能。 Apache Solr（支持独立快速启动和云模式水平扩展）用于通过 HTTP API 公开爬虫分析。这些分析可以使用管理仪表板中的直观图表进行可视化（即将推出）。
实时流式传输内容：可以选择将 Apache Kafka 配置为在内容可用时检索输出内容。
Java 脚本渲染在网页中执行 JavaScript 代码以创建页面的最终状态。设置简单且轻松，通过在 Spark 上分配工作来进行扩展。它为向主机发出的后续请求保留会话和 cookie。
可扩展的插件框架： Sparkler 被设计为模块化。它支持插件来扩展和自定义运行时行为。
通用解析器： Apache Tika 是最流行的内容检测和内容分析工具包，可以处理数千种文件格式，用于发现传出 Web 资源的链接并对获取的资源进行分析。

快速入门：在几分钟内运行您的第一个爬网作业

要使用 Sparkler，请安装 docker 并运行以下命令：

 # Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2     # id=1, top 100 URLs, do -i=2 iterations

使用种子 url 文件运行 Sparkler：

1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:     
       a. emacs sparkler/bin/seed-urls.txt 
       b. copy paste your urls 
       c. Ctrl+x Ctrl+s to save  
       d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]

* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.

3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory) 
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.

要爬网直到所有新 URL 的末尾，请使用-i -1 ，示例： /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1