sparkler下載 - sparkler原始碼下載

sparkler

其他源碼

1.0.0

下載

煙火

網路爬蟲是一種機器人程序，它從網路上獲取資源，以便建立搜尋引擎、知識庫等應用程式。進展透過整合 Spark、Kafka、Lucene/Solr、Tika 和 pf4j 等各種 Apache 專案來建構資訊檢索領域。 Sparkler 是一個可擴展、高度可擴展的高效能網路爬蟲，它是 Apache Nutch 的演變，並在 Apache Spark Cluster 上運行。

筆記：

~~Sparkler 正在被提議給 Apache 孵化器。查看提案文件並在此提供您的建議~~稍後會完成，最終！

Sparkler 的顯著特徵：

提供更高的效能和容錯能力：抓取管道經過重新設計，以利用 Apache Spark 的快取和容錯能力。
支援複雜且近乎即時的分析：內部資料結構是由 Apache Lucene 提供支援的索引存儲，具有近實時回答複雜查詢的功能。 Apache Solr（支援獨立快速啟動和雲端模式水平擴展）用於透過 HTTP API 公開爬蟲分析。這些分析可以使用管理儀表板中的直覺圖表進行視覺化（即將推出）。
即時串流內容：可以選擇將 Apache Kafka 配置為在內容可用時檢索輸出內容。
Java 腳本渲染在網頁中執行 JavaScript 程式碼以建立頁面的最終狀態。設定簡單且輕鬆，透過在 Spark 上分配工作來進行擴充。它為向主機發出的後續請求保留會話和 cookie。
可擴展的插件框架： Sparkler 被設計為模組化。它支援插件來擴展和自訂運行時行為。
通用解析器： Apache Tika 是最受歡迎的內容偵測和內容分析工具包，可以處理數千種文件格式，用於發現傳出 Web 資源的連結並對獲取的資源進行分析。

快速入門：在幾分鐘內執行您的第一個爬網作業

若要使用 Sparkler，請安裝 docker 並執行以下命令：

 # Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2     # id=1, top 100 URLs, do -i=2 iterations

使用種子 url 檔案運行 Sparkler：

1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:     
       a. emacs sparkler/bin/seed-urls.txt 
       b. copy paste your urls 
       c. Ctrl+x Ctrl+s to save  
       d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]

* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.

3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory) 
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.

要爬網直到所有新 URL 的末尾，請使用-i -1 ，範例： /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1