Perayap web adalah program bot yang mengambil sumber daya dari web demi membangun aplikasi seperti mesin pencari, basis pengetahuan, dll. Sparkler (kontraksi Spark-Crawler) adalah perayap web baru yang memanfaatkan kemajuan terkini dalam komputasi terdistribusi dan domain pengambilan informasi dengan menggabungkan berbagai proyek Apache seperti Spark, Kafka, Lucene/Solr, Tika, dan pf4j. Sparkler adalah perayap web yang dapat diperluas, sangat skalabel, dan berkinerja tinggi yang merupakan evolusi dari Apache Nutch dan berjalan di Apache Spark Cluster.
Sparkler sedang diusulkan ke Apache Incubator. Tinjau dokumen proposal dan berikan saran Anda di sini Akan dilakukan nanti, pada akhirnya!
Untuk menggunakan Sparkler, instal buruh pelabuhan dan jalankan perintah di bawah ini:
# Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2 # id=1, top 100 URLs, do -i=2 iterations
1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:
a. emacs sparkler/bin/seed-urls.txt
b. copy paste your urls
c. Ctrl+x Ctrl+s to save
d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]
* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.
3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory)
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.
Untuk merayapi hingga akhir semua URL baru, gunakan -i -1
, Contoh: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1
Setiap pertanyaan atau saran diterima di milis kami [email protected] Alternatifnya, Anda dapat menggunakan saluran slack untuk mendapatkan bantuan http://irds.usc.edu/sparkler/#slack