زاحف الويب هو برنامج روبوت يقوم بجلب الموارد من الويب من أجل إنشاء تطبيقات مثل محركات البحث وقواعد المعرفة وما إلى ذلك. Sparkler (اختصار لـ Spark-Crawler) هو زاحف ويب جديد يستفيد من التطورات الحديثة في الحوسبة الموزعة ومجالات استرجاع المعلومات من خلال تجميع مشاريع Apache المختلفة مثل Spark وKafka وLucene/Solr وTika وpf4j. Sparkler عبارة عن زاحف ويب قابل للتوسعة وقابل للتطوير بدرجة كبيرة وعالي الأداء وهو عبارة عن تطور لـ Apache Nutch ويعمل على Apache Spark Cluster.
يتم اقتراح Sparkler على Apache Incubator. قم بمراجعة وثيقة الاقتراح وتقديم اقتراحاتك هنا هنا سيتم ذلك لاحقًا، في النهاية!
لاستخدام الماسة، قم بتثبيت عامل الإرساء وقم بتشغيل الأوامر التالية:
# Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2 # id=1, top 100 URLs, do -i=2 iterations
1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:
a. emacs sparkler/bin/seed-urls.txt
b. copy paste your urls
c. Ctrl+x Ctrl+s to save
d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]
* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.
3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory)
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.
للزحف حتى نهاية جميع عناوين URL الجديدة، استخدم -i -1
، مثال: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1
نرحب بأي أسئلة أو اقتراحات في قائمتنا البريدية [email protected] وبدلاً من ذلك، يمكنك استخدام قناة Slack للحصول على المساعدة http://irds.usc.edu/sparkler/#slack