멋진 크롤러
다양한 언어로 된 멋진 웹 크롤러, 스파이더 및 리소스 모음입니다.
내용물
- 파이썬
- 자바
- 기음#
- 자바스크립트
- PHP
- C++
- 기음
- 루비
- 녹
- 아르 자형
- 얼랭
- 펄
- 가다
- 스칼라
파이썬
- Scrapy - 빠른 고급 화면 스크래핑 및 웹 크롤링 프레임워크입니다.
- django-dynamic-scraper - Django 관리 인터페이스를 통해 Scrapy 스크레이퍼를 생성합니다.
- Scrapy-Redis - Scrapy용 Redis 기반 구성 요소입니다.
- scrapy-cluster - Redis 및 Kafka를 사용하여 분산형 온디맨드 스크래핑 클러스터를 생성합니다.
- distribution_crawler - scrapy,redis, mongodb,graphite를 사용하여 분산 스파이더를 만듭니다.
- pyspider - 강력한 스파이더 시스템입니다.
- CoCrawler - 최신 도구와 동시성을 사용하여 구축된 다용도 웹 크롤러입니다.
- cola - 분산 크롤링 프레임워크입니다.
- Demiurge - PyQuery 기반 스크래핑 마이크로 프레임워크.
- Scrapely - 순수 Python HTML 화면 스크래핑 라이브러리입니다.
- Feedparser - 범용 피드 파서.
- you-get - 웹을 긁는 멍청한 다운로더.
- MechanicalSoup - 웹사이트와의 상호작용을 자동화하기 위한 Python 라이브러리입니다.
- portia - Scrapy를 위한 시각적 스크래핑.
- Crowley - 비차단 I/O 작업을 기반으로 하는 Pythonic 크롤링/스크래핑 프레임워크입니다.
- RoboBrowser - 독립형 웹 브라우저 없이 웹을 탐색하기 위한 간단한 Python 라이브러리입니다.
- MSpider - gevent 및 js 렌더를 사용하는 간단하고 쉬운 스파이더입니다.
- brownant - 경량 웹 데이터 추출 프레임워크입니다.
- PSpider - Python3의 간단한 스파이더 프레임입니다.
- Gain - 모두를 위한 asyncio 기반 웹 크롤링 프레임워크입니다.
- sukhoi - 미니멀하고 강력한 웹 크롤러.
- spidy - 간단하고 사용하기 쉬운 명령줄 웹 크롤러입니다.
- 신문 - Python 3에서 뉴스, 전문, 기사 메타데이터 추출
- aspider - asyncio를 기반으로 한 비동기 웹 스크래핑 마이크로 프레임워크입니다.
자바
- ACHE 크롤러 - 도메인별 검색을 위해 사용하기 쉬운 웹 크롤러입니다.
- Apache Nutch - 프로덕션 환경을 위한 확장성이 뛰어난 웹 크롤러입니다.
- anthelion - HTML 페이지 내에서 의미 주석을 크롤링하는 Apache Nutch용 플러그인입니다.
- Crawler4j - 간단하고 가벼운 웹 크롤러.
- JSoup - HTML을 긁어내고, 구문 분석하고, 조작하고 정리합니다.
- websphinx - HTML 정보 추출을 위한 웹사이트별 프로세서입니다.
- 개방형 검색 서버 - 전체 검색 기능 세트입니다. 자신만의 색인 전략을 구축하세요. 파서는 전체 텍스트 데이터를 추출합니다. 크롤러는 모든 것을 색인화할 수 있습니다.
- Gecco - 사용하기 쉬운 경량 웹 크롤러
- WebCollector - 웹 크롤링을 위한 간단한 인터페이스로 5분 이내에 다중 스레드 웹 크롤러를 설정할 수 있습니다.
- Webmagic - 확장 가능한 크롤러 프레임워크입니다.
- 스파이더맨(Spiderman) - 확장 가능하고 확장 가능한 다중 스레드 웹 크롤러입니다.
- Spiderman2 - 분산 웹 크롤러 프레임워크로, js 렌더링을 지원합니다.
- Heritrix3 - 확장 가능한 웹 규모, 보관 품질의 웹 크롤러 프로젝트입니다.
- SeimiCrawler - 민첩한 분산 크롤러 프레임워크입니다.
- StormCrawler - Apache Storm에서 지연 시간이 짧고 확장 가능한 웹 크롤러를 구축하기 위한 오픈 소스 리소스 모음입니다.
- Spark-Crawler - Spark에서 실행되도록 진화된 Apache Nutch입니다.
- webBee - DFS 웹 스파이더.
- spider-flow - 시각적 스파이더 프레임워크로 웹 사이트를 크롤링하기 위해 코드를 작성할 필요가 없을 정도로 훌륭합니다.
- Norconex 웹 크롤러 - Norconex HTTP Collector는 수집된 데이터를 조작하고 원하는 저장소(예: 검색 엔진)에 저장할 수 있는 모든 기능을 갖춘 웹 크롤러(또는 스파이더)입니다. 독립형 애플리케이션으로 사용하거나 Java 애플리케이션에 내장할 수 있습니다.
기음#
- ccrawler - C# 3.5 버전에 내장되어 있습니다. 여기에는 콘텐츠에 따라 웹 페이지를 분리할 수 있는 웹 콘텐츠 분류기의 간단한 확장이 포함되어 있습니다.
- SimpleCrawler - 다중 스레딩, 일반 표현을 기반으로 하는 간단한 스파이더 기반입니다.
- DotnetSpider - C#으로 개발한 크로스 플랫폼, 라이트 스파이더입니다.
- Abot - 속도와 유연성을 위해 제작된 C# 웹 크롤러입니다.
- Hawk - C#/WPF로 작성된 고급 크롤러 및 ETL 도구입니다.
- SkyScraper - async/await 및 Reactive Extensions를 사용하는 비동기식 웹 스크레이퍼/웹 크롤러입니다.
- Infinity Crawler - C#의 간단하지만 강력한 웹 크롤러 라이브러리입니다.
자바스크립트
- scraperjs - 완전하고 다재다능한 웹 스크레이퍼입니다.
- scrape-it - 인간을 위한 Node.js 스크레이퍼입니다.
- simplecrawler - 이벤트 기반 웹 크롤러.
- node-crawler - 노드 크롤러에는 깨끗하고 간단한 API가 있습니다.
- js-crawler - Node.JS용 웹 크롤러, HTTP와 HTTPS가 모두 지원됩니다.
- webster - 웹 페이지에서 ajax 및 js 렌더링된 콘텐츠를 스크랩할 수 있는 안정적인 웹 크롤링 프레임워크입니다.
- x-ray - 페이지 매김 및 크롤러를 지원하는 웹 스크레이퍼입니다.
- node-osmosis - Node.js용 HTML/XML 파서 및 웹 스크레이퍼입니다.
- web-scraper-chrome-extension - 크롬 확장으로 구현된 웹 데이터 추출 도구입니다.
- supercrawler - 콘텐츠를 구문 분석하는 사용자 정의 핸들러를 정의합니다. robots.txt, 속도 제한 및 동시성 제한을 준수합니다.
- headless-chrome-crawler - jQuery를 지원하는 헤드리스 Chrome 크롤링
- Squidwarc - 헤드 유무에 관계없이 Chrome 또는 Chromium을 사용하는 충실도가 높고 사용자 스크립트가 가능한 아카이브 크롤러
- crawlee - 안정적인 크롤러를 구축하는 데 도움이 되는 Node.js용 웹 스크래핑 및 브라우저 자동화 라이브러리입니다. 빠른.
PHP
- Goutte - PHP용 스크린 스크래핑 및 웹 크롤링 라이브러리입니다.
- laravel-goutte - Goutte용 Laravel 5 Facade입니다.
- dom-crawler - DomCrawler 구성 요소는 HTML 및 XML 문서에 대한 DOM 탐색을 쉽게 해줍니다.
- QueryList - 진보적인 PHP 크롤러 프레임워크입니다.
- pspider - PHP로 작성된 병렬 웹 크롤러입니다.
- php-spider - 구성 및 확장 가능한 PHP 웹 스파이더입니다.
- spatie/crawler - PHP로 구현된 사용하기 쉽고 강력한 크롤러입니다. 자바스크립트를 실행할 수 있습니다.
- crawlzone/crawlzone - Crawlzone은 PHP용 고속 비동기 인터넷 크롤링 프레임워크입니다.
- PHPScraper - PHPScraper는 단순성을 위해 제작된 스크레이퍼 및 크롤러입니다.
C++
- 오픈 소스 검색 엔진 - C/C++로 작성된 분산 오픈 소스 검색 엔진 및 스파이더/크롤러입니다.
기음
- httrack - 웹사이트를 컴퓨터에 복사합니다.
루비
- Nokogiri - XPath 및 CSS 선택기 지원과 함께 HTML, XML, SAX 및 Reader 파서를 제공하는 Rubygem입니다.
- upton - 손쉬운 웹 스크래핑을 위한 배터리 포함 프레임워크입니다. CSS를 추가하세요(또는 더 많은 작업을 수행하세요).
- wombat - 페이지에서 구조화된 데이터를 추출하는 우아한 DSL을 갖춘 경량 Ruby 웹 크롤러/스크레이퍼입니다.
- RubyRetriever - RubyRetriever는 웹 크롤러, 스크레이퍼 및 파일 수확기입니다.
- Spidr - 사이트, 여러 도메인, 특정 링크 또는 무한히 스파이더링합니다.
- Cobweb - 매우 유연한 크롤링 옵션을 갖춘 웹 크롤러(독립형 또는 sidekiq 사용)
- mechanize - 자동화된 웹 상호작용 및 크롤링.
녹
- 스파이더 - 가장 빠른 웹 크롤러 및 인덱서입니다.
- 크롤러 - 성능을 강화한 gRPC 웹 인덱서 터보입니다.
아르 자형
- rvest - R을 위한 간단한 웹 스크래핑.
얼랭
- ebot - 확장 가능하고 분산되며 고도로 구성 가능한 웹 콜러입니다.
펄
- web-scraper - HTML 및 CSS 선택기 또는 XPath 표현식을 사용하는 웹 스크래핑 툴킷입니다.
가다
- pholcus - 분산되고 동시성이 뛰어난 강력한 웹 크롤러입니다.
- gocrawl - 정중하고 슬림한 동시 웹 크롤러입니다.
- fetchbot - robots.txt 정책과 크롤링 지연을 따르는 간단하고 유연한 웹 크롤러입니다.
- go_spider - 멋진 Go 동시 크롤러(스파이더) 프레임워크입니다.
- dht - BitTorrent DHT 프로토콜 및 DHT 스파이더.
- ants-go - golang의 오픈 소스 분산형 편안한 크롤러 엔진입니다.
- scrape - Go 웹 스크래핑을 위한 간단하고 높은 수준의 인터페이스입니다.
- creeper - 차세대 크롤러 프레임워크(Go).
- colly - Gophers를 위한 빠르고 우아한 스크래핑 프레임워크입니다.
- 흰 족제비 - 선언적 웹 스크래핑.
- 데이터플로우 키트 - 웹페이지에서 구조화된 데이터를 추출합니다. 웹사이트 스크래핑.
- Hakrawler - 웹 애플리케이션 내의 엔드포인트와 자산을 쉽고 빠르게 검색할 수 있도록 설계된 간단하고 빠른 웹 크롤러
스칼라
- 크롤러 - 웹 크롤링을 위한 Scala DSL입니다.
- scrala - scrapy에서 영감을 받은 Scala 크롤러(스파이더) 프레임워크입니다.
- ferrit - Ferrit은 Akka, 스프레이 및 Cassandra를 사용하여 Scala로 작성된 웹 크롤러 서비스입니다.