Ein Webcrawler ist ein Bot-Programm, das Ressourcen aus dem Web abruft, um Anwendungen wie Suchmaschinen, Wissensdatenbanken usw. zu erstellen. Sparkler (Abkürzung von Spark-Crawler) ist ein neuer Webcrawler, der sich die jüngsten Fortschritte im verteilten Computing zunutze macht und Informationsabrufdomänen durch die Zusammenführung verschiedener Apache-Projekte wie Spark, Kafka, Lucene/Solr, Tika und pf4j. Sparkler ist ein erweiterbarer, hoch skalierbarer und leistungsstarker Webcrawler, der eine Weiterentwicklung von Apache Nutch ist und auf dem Apache Spark Cluster läuft.
Sparkler wird Apache Incubator vorgeschlagen. Sehen Sie sich das Vorschlagsdokument an und machen Sie hier Ihre Vorschläge Wird irgendwann später erledigt!
Um Sparkler zu verwenden, installieren Sie Docker und führen Sie die folgenden Befehle aus:
# Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2 # id=1, top 100 URLs, do -i=2 iterations
1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:
a. emacs sparkler/bin/seed-urls.txt
b. copy paste your urls
c. Ctrl+x Ctrl+s to save
d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]
* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.
3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory)
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.
Um bis zum Ende aller neuen URLs zu crawlen, verwenden Sie -i -1
, Beispiel: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1
Alle Fragen oder Vorschläge sind in unserer Mailingliste [email protected] willkommen. Alternativ können Sie den Slack-Kanal nutzen, um Hilfe zu erhalten: http://irds.usc.edu/sparkler/#slack