sparkler
1.0.0
웹 크롤러는 검색 엔진, 지식 기반 등과 같은 애플리케이션을 구축하기 위해 웹에서 리소스를 가져오는 봇 프로그램입니다. Sparkler(Spark-Crawler의 약자)는 분산 컴퓨팅의 최근 발전을 활용하는 새로운 웹 크롤러입니다. Spark, Kafka, Lucene/Solr, Tika, pf4j 등 다양한 Apache 프로젝트를 통합하여 정보 검색 도메인을 제공합니다. Sparkler는 Apache Nutch의 발전된 버전이며 Apache Spark Cluster에서 실행되는 확장 가능하고 확장성이 뛰어난 고성능 웹 크롤러입니다.
Sparkler는 Apache Incubator에 제안되고 있습니다. 제안 문서를 검토하고 여기에 제안 사항을 입력하세요. 나중에 결국 완료됩니다!
Sparkler를 사용하려면 docker를 설치하고 아래 명령을 실행하십시오.
# Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2 # id=1, top 100 URLs, do -i=2 iterations
1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:
a. emacs sparkler/bin/seed-urls.txt
b. copy paste your urls
c. Ctrl+x Ctrl+s to save
d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]
* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.
3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory)
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.
모든 새 URL이 끝날 때까지 크롤링하려면 -i -1
사용하십시오. 예: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1
모든 질문이나 제안은 메일링 리스트 [email protected]에서 환영합니다. 또는 Slack 채널(http://irds.usc.edu/sparkler/#slack)을 사용하여 도움을 받을 수도 있습니다.