Un robot d'exploration Web est un programme de robot qui récupère des ressources sur le Web dans le but de créer des applications telles que des moteurs de recherche, des bases de connaissances, etc. Sparkler (contraction de Spark-Crawler) est un nouveau robot d'exploration Web qui utilise les progrès récents de l'informatique distribuée. et les domaines de recherche d'informations en conglomérant divers projets Apache comme Spark, Kafka, Lucene/Solr, Tika et pf4j. Sparkler est un robot d'exploration Web extensible, hautement évolutif et hautes performances qui est une évolution d'Apache Nutch et s'exécute sur Apache Spark Cluster.
Sparkler est proposé à Apache Incubator. Consultez le document de proposition et fournissez vos suggestions ici Ce sera fait plus tard, éventuellement !
Pour utiliser Sparkler, installez Docker et exécutez les commandes ci-dessous :
# Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2 # id=1, top 100 URLs, do -i=2 iterations
1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:
a. emacs sparkler/bin/seed-urls.txt
b. copy paste your urls
c. Ctrl+x Ctrl+s to save
d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]
* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.
3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory)
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.
Pour explorer jusqu'à la fin de toutes les nouvelles URL, utilisez -i -1
, Exemple : /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1
Toutes les questions ou suggestions sont les bienvenues dans notre liste de diffusion [email protected]. Vous pouvez également utiliser le canal Slack pour obtenir de l'aide http://irds.usc.edu/sparkler/#slack