Baidu をクロールするための強力なツール
簡体字中国語|繁体字中国語|
すぐに始めましょう »
例を表示する · 問題を報告する · 要件をリクエストする
検索エンジンは非常に強力なツールであり、他のツールを検索エンジンの多くの強力な機能と統合できれば、これらのツールはさらに強力になります。しかし、現時点では、検索エンジンの検索結果を正確に抽出できるオープンソースのクローラーを見つけていません。そこで、Baidu 検索エンジン、BaiduSpider をクロールするためにこのプロジェクトを作成しました。
BaiduSpider のユニークな機能:
データ抽出の時間を節約し、同様の深層学習プロジェクトでのデータ モデルの確立とトレーニングに役立ちます。
データを正確に抽出し、広告を削除します。
検索結果は大規模かつ包括的であり、複数の検索タイプと戻り値のタイプをサポートしています。
もちろん、完璧なプロジェクトはありません。どのプロジェクトの開発にもコミュニティの協力が必要です。問題を公開したり PR を送信したりすることで、BaiduSpider の進歩を支援できます。 :笑顔:
いくつかの役立つドキュメントやツールは、最後の「謝辞」セクションに記載されています。
BaiduSpider で使用される主要なオープン ソースの依存関係ライブラリの一部。
BaiduSpider をインストールするには、次のいくつかの手順に従ってください。
BaiduSpider をインストールする前に、 Python3.6+
インストールされていることを確認してください。
$ python --version
バージョンが3.6.0
未満の場合は、Python 公式 Web サイトにアクセスして Python をダウンロードしてインストールしてください。
pip
使用してインストールするコマンドラインに次のように入力してください。
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
次のコードを使用すると、BaiduSpider を通じて Baidu の Web 検索結果を取得できます。
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
その他のサンプルと構成については、ドキュメントを参照してください。
最新のプロジェクト計画と既知の問題については、「開始時の問題」を参照してください。
コミュニティへの貢献はオープンソース プロジェクトの魂であり、オープンソース コミュニティ全体が学び、コミュニケーションし、インスピレーションを得る方法でもあります。このプロジェクトの開発と保守に参加していただける方を強く歓迎します。
参加するための具体的な手順は次のとおりです。
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
)このプロジェクトはGPL-V3
に基づいたオープンソースです。詳細についてはLICENSE
参照してください。
samzhangjy - @samzhangjy - [email protected]
プロジェクトリンク: https://github.com/BaiduSpider/BaiduSpider
このプロジェクトは学習のみを目的としており、商業目的や大量の Baidu データのクロールに使用することはできません。さらに、このプロジェクトはGPL-V3
著作権契約を使用しています。つまり、このプロジェクトに関係する (使用する) 他のプロジェクトはオープンソースであり、出典を明示する必要があり、このプロジェクトの作成者は悪用による法的リスクを負わないことになります。ここに、違反者は自己の責任でその結果を負うものとします。