โปรแกรมรวบรวมข้อมูลเว็บเป็นโปรแกรมบอทที่ดึงทรัพยากรจากเว็บเพื่อสร้างแอปพลิเคชัน เช่น โปรแกรมค้นหา ฐานความรู้ ฯลฯ Sparkler (ย่อมาจาก Spark-Crawler) คือโปรแกรมรวบรวมข้อมูลเว็บใหม่ที่ใช้ความก้าวหน้าล่าสุดในการคำนวณแบบกระจาย และโดเมนการดึงข้อมูลโดยการรวมโครงการ Apache ต่างๆ เช่น Spark, Kafka, Lucene/Solr, Tika และ pf4j Sparkler เป็นโปรแกรมรวบรวมข้อมูลเว็บที่ขยายได้ ปรับขนาดได้สูง และมีประสิทธิภาพสูง ซึ่งเป็นวิวัฒนาการของ Apache Nutch และทำงานบน Apache Spark Cluster
Sparkler กำลังถูกเสนอให้กับ Apache Incubator ตรวจสอบเอกสารข้อเสนอและให้คำแนะนำของคุณที่นี่ ที่นี่ จะทำทีหลังในที่สุด!
หากต้องการใช้ดอกไม้เพลิง ให้ติดตั้ง docker และรันคำสั่งด้านล่าง:
# Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2 # id=1, top 100 URLs, do -i=2 iterations
1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:
a. emacs sparkler/bin/seed-urls.txt
b. copy paste your urls
c. Ctrl+x Ctrl+s to save
d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]
* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.
3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory)
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.
หากต้องการรวบรวมข้อมูลจนถึงจุดสิ้นสุดของ URL ใหม่ทั้งหมด ให้ใช้ -i -1
ตัวอย่าง: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1
ยินดีรับฟังคำถามหรือข้อเสนอแนะในรายชื่ออีเมลของเรา [email protected] หรือคุณสามารถใช้ช่องทาง slack เพื่อขอความช่วยเหลือ http://irds.usc.edu/sparkler/#slack