素晴らしいクローラー
さまざまな言語の素晴らしい Web クローラー、スパイダー、リソースのコレクション。
コンテンツ
- パイソン
- ジャワ
- C#
- JavaScript
- PHP
- C++
- C
- ルビー
- さび
- R
- アーラン
- パール
- 行く
- スカラ座
パイソン
- Scrapy - 高速で高レベルの画面スクレイピングおよび Web クローリング フレームワーク。
- django-dynamic-scraper - Django 管理インターフェース経由で Scrapy スクレイパーを作成します。
- Scrapy-Redis - Scrapy 用の Redis ベースのコンポーネント。
- scrapy-cluster - Redis と Kafka を使用して、分散型オンデマンド スクレイピング クラスターを作成します。
- distribution_crawler - スクレイピー、redis、mongodb、graphite を使用して分散スパイダーを作成します。
- pyspider - 強力なスパイダー システム。
- CoCrawler - 最新のツールと同時実行性を使用して構築された多用途の Web クローラー。
- cola - 分散クローリング フレームワーク。
- Demiurge - PyQuery ベースのスクレイピング マイクロフレームワーク。
- Scrapely - 純粋な Python HTML 画面スクレイピング ライブラリです。
- feedparser - ユニバーサル フィード パーサー。
- you-get - Web をスクレイピングする愚かなダウンローダー。
- MechanicalSoup - Web サイトとの対話を自動化するための Python ライブラリ。
- portia - Scrapy 用のビジュアルスクレイピング.
- クローリー - ノンブロッキング I/O 操作に基づく Python のクローリング / スクレイピング フレームワーク。
- RoboBrowser - スタンドアロン Web ブラウザーを使用せずに Web を閲覧するためのシンプルな Python ライブラリです。
- MSpider - gevent と js render を使用したシンプルで簡単なスパイダー。
- Brownant - 軽量の Web データ抽出フレームワーク。
- PSpider - Python3 の単純なスパイダー フレーム。
- Gain - 誰でも使える asyncio に基づく Web クローリング フレームワーク。
- sukhoi - ミニマリストで強力な Web クローラー.
- spidy - シンプルで使いやすいコマンドライン Web クローラー。
- 新聞 - Python 3 でのニュース、全文、記事のメタデータ抽出
- aspider - asyncio に基づく非同期 Web スクレイピング マイクロフレームワーク。
ジャワ
- ACHE Crawler - ドメイン固有の検索のための使いやすい Web クローラー。
- Apache Nutch - 運用環境向けの拡張性とスケーラビリティに優れた Web クローラー。
- anthelion - HTML ページ内のセマンティックな注釈をクロールするための Apache Nutch のプラグイン。
- Crawler4j - シンプルで軽量な Web クローラー。
- JSoup - HTML をスクレイピング、解析、操作、クリーンアップします。
- websphinx - HTML 情報抽出のための Web サイト固有のプロセッサ。
- オープン検索サーバー - 完全な検索機能セット。独自のインデックス作成戦略を構築します。パーサーは全文データを抽出します。クローラーはあらゆるものにインデックスを付けることができます。
- Gecco - 使いやすい軽量 Web クローラー
- WebCollector - Web をクローリングするためのシンプルなインターフェイス。マルチスレッド Web クローラーを 5 分以内にセットアップできます。
- Webmagic - スケーラブルなクローラー フレームワーク。
- Spiderman - スケーラブルで拡張可能なマルチスレッド Web クローラー。
- Spiderman2 - 分散型 Web クローラー フレームワーク。js レンダリングをサポートします。
- Heritrix3 - 拡張可能な Web スケールのアーカイブ品質の Web クローラー プロジェクト。
- SeimiCrawler - アジャイルな分散クローラー フレームワーク。
- StormCrawler - Apache Storm 上で低遅延でスケーラブルな Web クローラーを構築するためのリソースのオープンソース コレクション
- Spark-Crawler - Spark 上で実行できるように進化した Apache Nutch。
- webBee - DFS Web スパイダー。
- Spider-flow - 視覚的なスパイダー フレームワーク。Web サイトをクロールするためのコードを記述する必要がないほど優れています。
- Norconex Web クローラー - Norconex HTTP Collector は、収集されたデータを操作し、選択したリポジトリ (検索エンジンなど) に保存できるフル機能の Web クローラー (またはスパイダー) です。スタンドアロン アプリケーションとして使用することも、Java アプリケーションに埋め込むこともできます。
C#
- ccrawler - C# 3.5 バージョンに組み込まれています。これには、コンテンツに応じて Web ページ間を分離できる Web コンテンツ カテゴライザの単純な拡張機能が含まれています。
- SimpleCrawler - マルチスレッド、正規表現に基づいたシンプルなスパイダー。
- DotnetSpider - これは、C# によって開発されたクロス プラットフォームのライト スパイダーです。
- Abot - 速度と柔軟性を重視して構築された C# Web クローラー。
- Hawk - C#/WPF で書かれた高度なクローラーおよび ETL ツール。
- SkyScraper - async / await および Reactive Extensions を使用する非同期 Web スクレーパー / Web クローラー。
- Infinity Crawler - C# のシンプルだが強力な Web クローラー ライブラリです。
JavaScript
- scraperjs - 完全かつ多用途の Web スクレイパーです。
- scrape-it – 人間用の Node.js スクレイパー。
- simplecrawler - イベント駆動型 Web クローラー。
- node-crawler - Node-crawler にはクリーンでシンプルな API があります。
- js-crawler - Node.JS 用の Web クローラー。HTTP と HTTPS の両方がサポートされています。
- webster - Web ページ内の Ajax および JS レンダリングされたコンテンツをスクレイピングできる信頼性の高い Web クローリング フレームワーク。
- x-ray - ページネーションとクローラーをサポートする Web スクレイパー。
- node-osmosis - Node.js 用の HTML/XML パーサーおよび Web スクレイパー。
- web-scraper-chrome-extension - Chrome 拡張機能として実装された Web データ抽出ツール。
- supercrawler - コンテンツを解析するためのカスタム ハンドラーを定義します。 robots.txt、レート制限、同時実行制限に従います。
- headless-chrome-crawler - jQuery サポートによるヘッドレス Chrome クロール
- Squidwarc - ヘッドの有無にかかわらず、Chrome または Chromium を使用する高忠実度、ユーザースクリプト可能なアーカイブ クローラー
- クローリー - 信頼性の高いクローラーの構築に役立つ Node.js 用の Web スクレイピングおよびブラウザー自動化ライブラリー。速い。
PHP
- Goutte - PHP 用の画面スクレイピングおよび Web クローリング ライブラリ。
- laravel-goutte – Goutte 用の Laravel 5 ファサード。
- dom-crawler - DomCrawler コンポーネントは、HTML および XML ドキュメントの DOM ナビゲーションを容易にします。
- QueryList - 進歩的な PHP クローラー フレームワーク。
- pspider - PHP で書かれた並列 Web クローラー。
- php-spider - 構成可能で拡張可能な PHP Web スパイダー。
- spatie/crawler - PHP で実装された使いやすく強力なクローラー。 Javascriptを実行できる。
- crawlzone/crawlzone - Crawlzone は、PHP 用の高速非同期インターネット クローリング フレームワークです。
- PHPScraper - PHPScraper は、シンプルさを追求して構築されたスクレーパーおよびクローラーです。
C++
- open-source-search-engine - C/C++ で書かれた分散型オープンソース検索エンジンおよびスパイダー/クローラー。
C
- httrack - Web サイトをコンピュータにコピーします。
ルビー
- Nokogiri - XPath および CSS セレクターのサポートを備えた HTML、XML、SAX、および Reader パーサーを提供する Rubygem。
- upton - 簡単に Web スクレイピングを行うためのバッテリー付属のフレームワーク。 CSS を追加するだけです (またはさらに追加します)。
- wombat - ページから構造化データを抽出するエレガントな DSL を備えた軽量の Ruby Web クローラー/スクレーパーです。
- RubyRetriever - RubyRetriever は、Web クローラー、スクレーパー、ファイル ハーベスターです。
- Spidr - サイト、複数のドメイン、特定のリンク、または無限にスパイダーします。
- Cobweb - 非常に柔軟なクロール オプションを備えた Web クローラー (スタンドアロンまたは Sidekiq を使用)。
- mechanize - 自動化された Web インタラクションとクローリング。
さび
- Spider - 最速の Web クローラーおよびインデクサー。
- クローラー - パフォーマンスのためにターボチャージされた gRPC Web インデクサー。
R
- rvest - R 用のシンプルな Web スクレイピング.
アーラン
- ebot - スケーラブルで分散型の高度に構成可能な Web Cawler。
パール
- web-scraper - HTML および CSS セレクター、または XPath 式を使用する Web スクレイピング ツールキット。
行く
- Pholcus - 分散型、同時実行性の高い強力な Web クローラー。
- gocrawl - 丁寧でスリムな同時 Web クローラー.
- fetchbot - robots.txt ポリシーとクロール遅延に従うシンプルで柔軟な Web クローラー。
- go_spider - 素晴らしい Go 同時実行クローラー (スパイダー) フレームワーク。
- dht - BitTorrent DHT プロトコル && DHT スパイダー。
- ants-go - Golang のオープンソースの分散型 RESTful クローラー エンジンです。
- scrape - Go Web スクレイピング用のシンプルで高レベルのインターフェイス。
- creeper - 次世代クローラー フレームワーク (Go)。
- Colly - Gopher 用の高速でエレガントなスクレイピング フレームワーク.
- ferret - 宣言型 Web スクレイピング.
- データフロー キット - Web ページから構造化データを抽出します。 Web サイトのスクレイピング。
- Hakrawler - Web アプリケーション内のエンドポイントとアセットを簡単かつ迅速に検出できるように設計された、シンプルで高速な Web クローラー
スカラ座
- クローラー - Web クローリング用の Scala DSL。
- scrala - Scrapy からインスピレーションを得た Scala クローラー (スパイダー) フレームワーク。
- ferrit - Ferrit は、Akka、Spray、Cassandra を使用して Scala で書かれた Web クローラー サービスです。