ECommerceCrawlers には、さまざまな電子商取引商品データ クローラーが含まれており、クローラー演習を整理および収集します。すべてのプロジェクトはメンバーによって書かれます。実践的なプロジェクト演習を通じて、一般的なクローラーで遭遇する問題を解決します。含まれるもの: 淘宝網製品、WeChat 公開アカウント、点評、求人 Web サイト、Xianyu、Alibaba タスク、スクレイピー ブログ パーク、Weibo、Baidu Tieba、Douban Movies、Baotu.com、Panorama.com、Douban Music、地方食品医薬品局、捜湖ニュース、機械学習テキスト コレクション、fofa アセット コレクション、オートホーム、国家統計局、百度キーワード コレクション番号、スパイダー パン ディレクトリ、Toutiao、Douban 映画レビュー。
クロール プロセスの分析については、各プロジェクトの Readme を参照してください。
クロールに習熟している人にとって、これはホイールを回収する繰り返しのプロセスを減らす良い例になります。プロジェクトは頻繁に更新および保守されるため、すぐに使用できるようになり、クロール時間が短縮されます。
初心者向けに、実践的なプロジェクトを通じてクローラについて一から学びます。クローラー ナレッジの構築はプロジェクト Wiki に移動できます。クロールは技術的に敷居が高く、非常に複雑な作業かもしれませんが、適切な方法を使えば、実際には短時間で主流の Web サイトのデータをクロールすることが非常に簡単になります。ただし、最初から具体的な目標を立てることをお勧めします。 。
目標に基づいて学習することで、学習はより正確かつ効率的になります。必要だと思われる前提知識はすべて、目標を達成する過程で学ぶことができます。