Un outil puissant pour explorer Baidu
Chinois simplifié | Chinois traditionnel Anglais |
Commencez vite »
Voir des exemples · Signaler un problème · Demander un besoin
Le moteur de recherche est un outil très puissant, et si d’autres outils peuvent être intégrés aux nombreuses fonctions puissantes du moteur de recherche, alors ces outils deviendront encore plus puissants. Mais actuellement, je n’ai pas trouvé de robot d’exploration open source capable d’extraire avec précision les résultats de recherche des moteurs de recherche. J'ai donc écrit ce projet pour explorer le moteur de recherche Baidu : BaiduSpider.
Caractéristiques uniques de BaiduSpider :
Cela permet de gagner du temps dans l'extraction des données et constitue une aide précieuse pour l'établissement de modèles de données et la formation dans des projets d'apprentissage en profondeur similaires.
Extrayez avec précision les données et supprimez les publicités.
Les résultats de recherche sont volumineux et complets, prenant en charge plusieurs types de recherche et types de retour.
Bien entendu, aucun projet n’est parfait. Le développement de tout projet nécessite l’aide de la communauté. Vous pouvez aider BaiduSpider à progresser en publiant un problème ou en soumettant un PR ! :sourire:
Certains documents ou outils utiles sont répertoriés dans la section Remerciements à la fin.
Certaines des principales bibliothèques de dépendances open source utilisées par BaiduSpider.
Pour installer BaiduSpider, veuillez suivre les quelques étapes suivantes.
Avant d'installer BaiduSpider, assurez-vous que Python3.6+
est installé :
$ python --version
Si la version est inférieure à 3.6.0
, veuillez vous rendre sur le site officiel de Python pour télécharger et installer Python.
pip
Veuillez saisir sur la ligne de commande :
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
Vous pouvez utiliser le code suivant pour obtenir les résultats de recherche Web de Baidu via BaiduSpider :
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
Pour plus d'exemples et de configurations, veuillez vous référer à la documentation
Veuillez vous référer aux problèmes en cours pour connaître les derniers plans de projet et les problèmes connus.
Les contributions de la communauté sont l'âme des projets open source et constituent également le moyen pour l'ensemble de la communauté open source d'apprendre, de communiquer et de s'inspirer. Nous invitons vivement toute personne à participer au développement et à la maintenance de ce projet.
Les étapes spécifiques pour participer sont les suivantes :
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) Ce projet est open source basé sur GPL-V3
, veuillez consulter LICENSE
pour plus de détails.
samzhangjy - @samzhangjy - [email protected]
Lien du projet : https://github.com/BaiduSpider/BaiduSpider
Ce projet est uniquement destiné à des fins d'apprentissage et ne peut pas être utilisé à des fins commerciales ou pour explorer de grandes quantités de données Baidu. De plus, ce projet utilise l'accord de droit d'auteur GPL-V3
, ce qui signifie que tout autre projet impliquant (utilisant) ce projet doit être open source et indiquer la source, et l'auteur de ce projet ne supporte aucun risque juridique causé par une mauvaise utilisation. Il est précisé que les contrevenants supporteront les conséquences à leurs propres risques.