sparklerダウンロード - sparklerソースコードのダウンロード

sparkler

その他のソースコード

1.0.0

ダウンロード

線香花火

Web クローラーは、検索エンジンやナレッジベースなどのアプリケーションを構築するために Web からリソースを取得するボットプログラムです。Sparkler (Spark-Crawler の短縮形) は、分散コンピューティングの最近の進歩を利用する新しい Web クローラーです。 Spark、Kafka、Lucene/Solr、Tika、pf4j などのさまざまな Apache プロジェクトを統合することによる情報検索ドメイン。 Sparkler は、Apache Nutch の進化版であり、Apache Spark Cluster 上で実行される、拡張可能でスケーラブルな高性能 Web クローラーです。

注記：

~~Sparkler は Apache Incubator に提案されています。提案文書を確認し、ここで提案を提供してください~~後で、最終的には実行されます！

Sparkler の注目すべき機能:

より高いパフォーマンスとフォールトトレランスを提供:クロールパイプラインは、Apache Spark のキャッシュとフォールトトレランス機能を活用するように再設計されました。
複雑なほぼリアルタイムの分析をサポート:内部データ構造は、Apache Lucene を利用したインデックス付きストアであり、複雑なクエリにほぼリアルタイムで応答する機能を備えています。 Apache Solr (クイックスタートのためのスタンドアロンと水平方向に拡張するためのクラウドモードをサポート) は、HTTP API 経由でクローラ分析を公開するために使用されます。これらの分析は、管理者ダッシュボード (近日公開予定) の直感的なグラフを使用して視覚化できます。
コンテンツをリアルタイムでストリーミング出力する:オプションで、コンテンツが利用可能になったときに出力コンテンツを取得するように Apache Kafka を構成できます。
Java Script レンダリングWeb ページで JavaScript コードを実行して、ページの最終状態を作成します。セットアップは簡単で手間がかからず、Spark 上で作業を分散することで拡張できます。ホストに対して行われる後続のリクエストのためにセッションと Cookie が保存されます。
拡張可能なプラグインフレームワーク: Sparkler はモジュール式に設計されています。ランタイム動作を拡張およびカスタマイズするためのプラグインをサポートしています。
ユニバーサルパーサー: Apache Tika は、数千のファイル形式を処理できる最も人気のあるコンテンツ検出およびコンテンツ分析ツールキットであり、発信 Web リソースへのリンクを検出し、取得したリソースの分析を実行するために使用されます。

クイックスタート: 最初のクロールジョブを数分で実行します

スパークラーを使用するには、docker をインストールし、以下のコマンドを実行します。

 # Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2     # id=1, top 100 URLs, do -i=2 iterations

シード URL ファイルを使用して Sparkler を実行します。

1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:     
       a. emacs sparkler/bin/seed-urls.txt 
       b. copy paste your urls 
       c. Ctrl+x Ctrl+s to save  
       d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]

* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.

3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory) 
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.

すべての新しい URL の最後までクロールするには、 -i -1を使用します。例: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1