Una poderosa herramienta para rastrear Baidu
Chino simplificado | Chino tradicional | Inglés
Comience rápidamente »
Ver ejemplos · Informar un problema · Solicitar un requisito
El motor de búsqueda es una herramienta muy poderosa, y si se pueden integrar otras herramientas con las muchas funciones poderosas del motor de búsqueda, estas herramientas serán aún más poderosas. Pero actualmente no he encontrado un rastreador de código abierto que pueda extraer con precisión los resultados de búsqueda de los motores de búsqueda. Entonces, escribí este proyecto para rastrear el motor de búsqueda Baidu: BaiduSpider.
Características únicas de BaiduSpider:
Ahorra tiempo en la extracción de datos y es una buena ayuda para el establecimiento de modelos de datos y la capacitación en proyectos similares de aprendizaje profundo.
Extraiga datos con precisión y elimine anuncios.
Los resultados de la búsqueda son grandes y completos y admiten múltiples tipos de búsqueda y tipos de resultados.
Por supuesto, ningún proyecto es perfecto. El desarrollo de cualquier proyecto requiere de la ayuda de la comunidad. ¡Puedes ayudar a BaiduSpider a progresar publicando un problema o enviando un PR! :sonrisa:
Algunos documentos o herramientas útiles se enumeran en la sección de Agradecimientos al final.
Algunas de las principales bibliotecas de dependencias de código abierto utilizadas por BaiduSpider.
Para instalar BaiduSpider, siga los siguientes pasos.
Antes de instalar BaiduSpider, asegúrese de tener instalado Python3.6+
:
$ python --version
Si la versión es inferior a 3.6.0
, vaya al sitio web oficial de Python para descargar e instalar Python.
pip
Por favor escriba en la línea de comando:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
Puede utilizar el siguiente código para obtener los resultados de búsqueda web de Baidu a través de BaiduSpider:
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
Para obtener más ejemplos y configuraciones, consulte la documentación.
Consulte Problemas iniciales para conocer los planes de proyecto más recientes y los problemas conocidos.
Las contribuciones de la comunidad son el alma de los proyectos de código abierto y también son la forma en que toda la comunidad de código abierto aprende, se comunica y se inspira. Invitamos encarecidamente a cualquiera a participar en el desarrollo y mantenimiento de este proyecto.
Los pasos específicos para participar son los siguientes:
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) Este proyecto es de código abierto basado en GPL-V3
; consulte LICENSE
para obtener más detalles.
samzhangjy - @samzhangjy - [email protected]
Enlace del proyecto: https://github.com/BaiduSpider/BaiduSpider
Este proyecto tiene únicamente fines de aprendizaje y no puede utilizarse con fines comerciales ni para rastrear grandes cantidades de datos de Baidu. Además, este proyecto utiliza el acuerdo de derechos de autor GPL-V3
, lo que significa que cualquier otro proyecto que involucre (use) este proyecto debe ser de código abierto e indicar la fuente, y el autor de este proyecto no asume ningún riesgo legal causado por el uso indebido. Se establece que los infractores soportarán las consecuencias bajo su propio riesgo.