sparkler ดาวน์โหลด - sparkler ดาวน์โหลดซอร์สโค้ด

sparkler

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ดอกไม้เพลิง

โปรแกรมรวบรวมข้อมูลเว็บเป็นโปรแกรมบอทที่ดึงทรัพยากรจากเว็บเพื่อสร้างแอปพลิเคชัน เช่น โปรแกรมค้นหา ฐานความรู้ ฯลฯ Sparkler (ย่อมาจาก Spark-Crawler) คือโปรแกรมรวบรวมข้อมูลเว็บใหม่ที่ใช้ความก้าวหน้าล่าสุดในการคำนวณแบบกระจาย และโดเมนการดึงข้อมูลโดยการรวมโครงการ Apache ต่างๆ เช่น Spark, Kafka, Lucene/Solr, Tika และ pf4j Sparkler เป็นโปรแกรมรวบรวมข้อมูลเว็บที่ขยายได้ ปรับขนาดได้สูง และมีประสิทธิภาพสูง ซึ่งเป็นวิวัฒนาการของ Apache Nutch และทำงานบน Apache Spark Cluster

บันทึก:

Sparkler กำลังถูกเสนอให้กับ Apache Incubator ตรวจสอบเอกสารข้อเสนอและให้คำแนะนำของคุณที่นี่ ที่นี่ จะทำทีหลังในที่สุด!

คุณสมบัติเด่นของ Sparkler:

มอบประสิทธิภาพที่สูงขึ้นและความทนทานต่อข้อผิดพลาด: ไปป์ไลน์การรวบรวมข้อมูลได้รับการออกแบบใหม่เพื่อใช้ประโยชน์จากความสามารถในการแคชและความทนทานต่อข้อผิดพลาดของ Apache Spark
รองรับการวิเคราะห์ที่ซับซ้อนและใกล้เคียงเรียลไทม์: โครงสร้างข้อมูลภายในเป็นร้านค้าที่จัดทำดัชนีซึ่งขับเคลื่อนโดย Apache Lucene และมีฟังก์ชันในการตอบคำถามที่ซับซ้อนในเวลาใกล้เคียงเรียลไทม์ Apache Solr (รองรับการทำงานแบบสแตนด์อโลนสำหรับการเริ่มต้นอย่างรวดเร็วและโหมดคลาวด์เพื่อปรับขนาดในแนวนอน) ใช้เพื่อเปิดเผยการวิเคราะห์ของโปรแกรมรวบรวมข้อมูลผ่าน HTTP API การวิเคราะห์เหล่านี้สามารถมองเห็นได้โดยใช้แผนภูมิที่ใช้งานง่ายในแดชบอร์ดผู้ดูแลระบบ (เร็วๆ นี้)
สตรีมเนื้อหาออกแบบเรียลไทม์: คุณสามารถเลือกกำหนดค่า Apache Kafka เพื่อดึงเนื้อหาเอาต์พุตในเวลาและเวลาที่เนื้อหาพร้อมใช้งานได้
การแสดงผลสคริปต์ Java รันโค้ดจาวาสคริปต์ในหน้าเว็บเพื่อสร้างสถานะสุดท้ายของหน้า การตั้งค่านั้นง่ายดายและไม่ยุ่งยาก โดยปรับขนาดได้โดยการกระจายงานบน Spark จะรักษาเซสชันและคุกกี้ไว้สำหรับการร้องขอครั้งต่อไปที่ส่งไปยังโฮสต์
เฟรมเวิร์กปลั๊กอินที่ขยายได้: Sparkler ได้รับการออกแบบให้เป็นโมดูลาร์ รองรับปลั๊กอินเพื่อขยายและปรับแต่งพฤติกรรมรันไทม์
Universal Parser: Apache Tika ซึ่งเป็นชุดเครื่องมือตรวจจับเนื้อหาที่ได้รับความนิยมสูงสุด และชุดเครื่องมือวิเคราะห์เนื้อหาที่สามารถจัดการกับรูปแบบไฟล์ได้หลายพันรูปแบบ ใช้เพื่อค้นหาลิงก์ไปยังแหล่งข้อมูลบนเว็บขาออกและยังดำเนินการวิเคราะห์ทรัพยากรที่ดึงมาอีกด้วย

เริ่มต้นอย่างรวดเร็ว: รันงานรวบรวมข้อมูลแรกของคุณในไม่กี่นาที

หากต้องการใช้ดอกไม้เพลิง ให้ติดตั้ง docker และรันคำสั่งด้านล่าง:

 # Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2     # id=1, top 100 URLs, do -i=2 iterations

การรัน Sparkler ด้วยไฟล์ seed url:

1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:     
       a. emacs sparkler/bin/seed-urls.txt 
       b. copy paste your urls 
       c. Ctrl+x Ctrl+s to save  
       d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]

* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.

3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory) 
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.

หากต้องการรวบรวมข้อมูลจนถึงจุดสิ้นสุดของ URL ใหม่ทั้งหมด ให้ใช้ -i -1 ตัวอย่าง: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1

การบริจาค:

ไปที่ซอร์สโค้ด
ไปที่เอกสาร

ติดต่อเรา

ยินดีรับฟังคำถามหรือข้อเสนอแนะในรายชื่ออีเมลของเรา [email protected] หรือคุณสามารถใช้ช่องทาง slack เพื่อขอความช่วยเหลือ http://irds.usc.edu/sparkler/#slack

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-25
ขนาด 3.97MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด