Ein leistungsstarkes Tool zum Crawlen von Baidu
Vereinfachtes Chinesisch | . Traditionelles Chinesisch |
Schnell loslegen »
Beispiele ansehen · Ein Problem melden · Eine Anforderung anfordern
Die Suchmaschine ist ein sehr leistungsfähiges Werkzeug, und wenn andere Tools in die vielen leistungsstarken Funktionen der Suchmaschine integriert werden können, werden diese Tools noch leistungsfähiger. Aber derzeit habe ich keinen Open-Source-Crawler gefunden, der Suchmaschinen-Suchergebnisse genau extrahieren kann. Deshalb habe ich dieses Projekt geschrieben, um die Baidu-Suchmaschine zu crawlen: BaiduSpider.
Die einzigartigen Funktionen von BaiduSpider:
Es spart Zeit beim Extrahieren von Daten und ist eine gute Hilfe bei der Erstellung und Schulung von Datenmodellen in ähnlichen Deep-Learning-Projekten.
Extrahieren Sie Daten genau und entfernen Sie Anzeigen.
Die Suchergebnisse sind groß und umfassend und unterstützen mehrere Suchtypen und Rückgabetypen.
Natürlich ist kein Projekt perfekt. Die Entwicklung jedes Projekts erfordert die Hilfe der Community. Sie können BaiduSpider beim Fortschritt unterstützen, indem Sie ein Problem veröffentlichen oder eine PR einreichen! :lächeln:
Einige hilfreiche Dokumente oder Tools sind im Abschnitt Danksagungen am Ende aufgeführt.
Einige der wichtigsten von BaiduSpider verwendeten Open-Source-Abhängigkeitsbibliotheken.
Um BaiduSpider zu installieren, befolgen Sie bitte die folgenden Schritte.
Stellen Sie vor der Installation von BaiduSpider sicher, dass Python3.6+
installiert ist:
$ python --version
Wenn die Version kleiner als 3.6.0
ist, besuchen Sie bitte die offizielle Python-Website, um Python herunterzuladen und zu installieren.
pip
installierenBitte geben Sie in der Befehlszeile Folgendes ein:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
Sie können den folgenden Code verwenden, um die Websuchergebnisse von Baidu über BaiduSpider abzurufen:
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
Weitere Beispiele und Konfigurationen finden Sie in der Dokumentation
Aktuelle Projektpläne und bekannte Probleme finden Sie unter „Offene Probleme“.
Community-Beiträge sind die Seele von Open-Source-Projekten und bieten der gesamten Open-Source-Community die Möglichkeit, zu lernen, zu kommunizieren und Inspiration zu gewinnen. Wir heißen jeden herzlich willkommen , sich an der Entwicklung und Wartung dieses Projekts zu beteiligen.
Konkrete Schritte zur Teilnahme sind wie folgt:
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) Dieses Projekt ist Open Source und basiert auf GPL-V3
. Weitere Informationen finden Sie unter LICENSE
.
samzhangjy – @samzhangjy – [email protected]
Projektlink: https://github.com/BaiduSpider/BaiduSpider
Dieses Projekt dient nur zu Lernzwecken und kann nicht für kommerzielle Zwecke oder zum Crawlen großer Mengen von Baidu-Daten verwendet werden. Darüber hinaus verwendet dieses Projekt die Urheberrechtsvereinbarung GPL-V3
, was bedeutet, dass alle anderen Projekte, die dieses Projekt beinhalten (verwenden), Open Source sein und die Quelle angeben müssen und der Autor dieses Projekts keine rechtlichen Risiken aufgrund von Missbrauch trägt. Es wird ausdrücklich darauf hingewiesen, dass Verstöße die Konsequenzen auf eigenes Risiko tragen.