sparkler 다운로드 - sparkler 소스 코드 다운로드

sparkler

기타 소스코드

1.0.0

다운로드

거품 이는 것

웹 크롤러는 검색 엔진, 지식 기반 등과 같은 애플리케이션을 구축하기 위해 웹에서 리소스를 가져오는 봇 프로그램입니다. Sparkler(Spark-Crawler의 약자)는 분산 컴퓨팅의 최근 발전을 활용하는 새로운 웹 크롤러입니다. Spark, Kafka, Lucene/Solr, Tika, pf4j 등 다양한 Apache 프로젝트를 통합하여 정보 검색 도메인을 제공합니다. Sparkler는 Apache Nutch의 발전된 버전이며 Apache Spark Cluster에서 실행되는 확장 가능하고 확장성이 뛰어난 고성능 웹 크롤러입니다.

메모:

~~Sparkler는 Apache Incubator에 제안되고 있습니다. 제안 문서를 검토하고 여기에 제안 사항을 입력하세요.~~ 나중에 결국 완료됩니다!

Sparkler의 주목할만한 기능:

더 높은 성능과 내결함성 제공: Apache Spark의 캐싱 및 내결함성 기능을 활용하도록 크롤링 파이프라인이 재설계되었습니다.
복잡하고 실시간에 가까운 분석 지원: 내부 데이터 구조는 Apache Lucene으로 구동되는 인덱싱된 저장소이며 거의 실시간으로 복잡한 쿼리에 응답하는 기능을 갖추고 있습니다. Apache Solr(빠른 시작을 위한 독립형 지원 및 수평 확장을 위한 클라우드 모드 지원)는 HTTP API를 통해 크롤러 분석을 노출하는 데 사용됩니다. 이러한 분석은 관리 대시보드(출시 예정)의 직관적인 차트를 사용하여 시각화할 수 있습니다.
실시간으로 콘텐츠 스트리밍: 선택적으로 콘텐츠를 사용할 수 있게 되면 출력 콘텐츠를 검색하도록 Apache Kafka를 구성할 수 있습니다.
자바 스크립트 렌더링 웹페이지에서 자바스크립트 코드를 실행하여 페이지의 최종 상태를 생성합니다. 설정은 쉽고 간편하며 Spark에 작업을 분산하여 확장됩니다. 호스트에 대한 후속 요청에 대한 세션과 쿠키를 보존합니다.
확장 가능한 플러그인 프레임워크: Sparkler는 모듈식으로 설계되었습니다. 런타임 동작을 확장하고 사용자 정의하는 플러그인을 지원합니다.
Universal Parser: 수천 개의 파일 형식을 처리할 수 있는 가장 널리 사용되는 콘텐츠 감지 및 콘텐츠 분석 도구 키트인 Apache Tika는 나가는 웹 리소스에 대한 링크를 검색하고 가져온 리소스에 대한 분석을 수행하는 데 사용됩니다.

빠른 시작: 몇 분 만에 첫 번째 크롤링 작업 실행

Sparkler를 사용하려면 docker를 설치하고 아래 명령을 실행하십시오.

 # Step 0. Get the image
docker pull ghcr.io/uscdatascience/sparkler/sparkler:main
# Step 1. Create a volume for elastic
docker volume create elastic
# Step 1. Inject seed urls
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main inject -id myid -su ' http://www.bbc.com/news '
# Step 3. Start the crawl job
docker run -v elastic:/elasticsearch-7.17.0/data ghcr.io/uscdatascience/sparkler/sparkler:main crawl -id myid -tn 100 -i 2     # id=1, top 100 URLs, do -i=2 iterations

시드 URL 파일을 사용하여 Sparkler 실행:

1. Follow Steps 0-1
2. Create a file name seed-urls.txt using Emacs editor as follows:     
       a. emacs sparkler/bin/seed-urls.txt 
       b. copy paste your urls 
       c. Ctrl+x Ctrl+s to save  
       d. Ctrl+x Ctrl+c to quit the editor [Reference: http://mally.stanford.edu/~sr/computing/emacs.html]

* Note: You can use Vim and Nano editors also or use: echo -e " http://example1.comnhttp://example2.com " >> seedfile.txt command.

3. Inject seed urls using the following command, (assuming you are in sparkler/bin directory) 
$bash sparkler.sh inject -id 1 -sf seed-urls.txt
4. Start the crawl job.

모든 새 URL이 끝날 때까지 크롤링하려면 -i -1 사용하십시오. 예: /data/sparkler/bin/sparkler.sh crawl -id 1 -i -1