Uma ferramenta poderosa para rastrear o Baidu
Chinês Simplificado | Chinês Tradicional |
Comece rapidamente »
Veja exemplos · Relate um problema · Solicite um requisito
O mecanismo de busca é uma ferramenta muito poderosa e, se outras ferramentas puderem ser integradas às muitas funções poderosas do mecanismo de busca, essas ferramentas se tornarão ainda mais poderosas. Mas atualmente não encontrei um rastreador de código aberto que possa extrair com precisão os resultados da pesquisa do mecanismo de pesquisa. Então, escrevi este projeto para rastrear o mecanismo de busca Baidu: BaiduSpider.
Recursos exclusivos do BaiduSpider:
Economiza tempo na extração de dados e é uma boa ajuda para o estabelecimento de modelos de dados e treinamento em projetos semelhantes de aprendizagem profunda.
Extraia dados com precisão e remova anúncios.
Os resultados da pesquisa são grandes e abrangentes, suportando vários tipos de pesquisa e vários tipos de retorno.
Claro, nenhum projeto é perfeito. O desenvolvimento de qualquer projeto requer a ajuda da comunidade. Você pode ajudar o progresso do BaiduSpider publicando uma edição ou enviando um PR! :sorriso:
Alguns documentos ou ferramentas úteis estão listados na seção Agradecimentos no final.
Algumas das principais bibliotecas de dependência de código aberto usadas pelo BaiduSpider.
Para instalar o BaiduSpider, siga as etapas a seguir.
Antes de instalar o BaiduSpider, certifique-se de ter Python3.6+
instalado:
$ python --version
Se a versão for inferior a 3.6.0
, acesse o site oficial do Python para baixar e instalar o Python.
pip
Por favor digite na linha de comando:
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
Você pode usar o seguinte código para obter os resultados de pesquisa na web do Baidu por meio do BaiduSpider:
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
Para mais amostras e configurações, consulte a documentação
Consulte os problemas de abertura para obter os planos de projeto mais recentes e os problemas conhecidos.
As contribuições da comunidade são a alma dos projetos de código aberto e também o caminho para toda a comunidade de código aberto aprender, se comunicar e obter inspiração. Damos as boas-vindas a qualquer pessoa que participe no desenvolvimento e manutenção deste projeto.
As etapas específicas para participar são as seguintes:
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
)git push origin username/BaiduSpider
) Este projeto é de código aberto baseado em GPL-V3
, consulte LICENSE
para obter detalhes.
samzhangjy - @samzhangjy - [email protected]
Link do projeto: https://github.com/BaiduSpider/BaiduSpider
Este projeto é apenas para fins de aprendizagem e não pode ser usado para fins comerciais ou para rastrear grandes quantidades de dados do Baidu. Além disso, este projeto utiliza o acordo de direitos autorais GPL-V3
, o que significa que quaisquer outros projetos que envolvam (utilizem) este projeto devem ser de código aberto e indicar a fonte, e o autor deste projeto não assume quaisquer riscos legais causados pelo uso indevido. Fica declarado que os infratores arcarão com as consequências por sua própria conta e risco.