Este é um raspador da web para pesquisa de Sina Weibo por palavras -chave
Existe alguns raspadores de Sina Weibo. No entanto, todos eles são implementados com a API Weibo. Sina Weibo limita a quantidade de dados que podem ser obtidos a cada hora, dia e mês se a API for usada. Este é um raspador da web para a pesquisa de Sina Weibo por palavras -chave implementadas pela codificação Pure URL, para que simule um navegador real, navegue para a página e tenha acesso aos dados. Ele se livra dos limites. É possível que o Weibo permita que você insira o código de verificação para provar que você não é uma máquina, mas não é frequentemente.
Xuzhou yin. Site pessoal: www.xuzhouyin.com
Open Terminal e navegue até o diretório em que deseja armazenar o programa e digite git clone address
para baixar o programa
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
O Sina Weibo limita a permissão do recurso de pesquisa que apenas os usuários assinaram pode usar pesquisas avançadas (como pesquisa com período de tempo específico). Portanto, registre -se em uma conta do Sina Weibo e faça login no Firefox Browser (para que o Firefox assina automaticamente na próxima vez). Em seguida, encontre o caminho do perfil do Firefox (consulte o perfil do Firefox armazenado). e substitua o caminho na linha 49 no scraper.py
.
O arquivo query.txt
é para armazenar todas as consultas. Adicione consultas na forma de keyword;eventDate;startDate;endDate;pageofResult
, uma consulta por linha. O Sina Weibo não suporta "role para baixo para ver mais" recurso na pesquisa. Em vez disso, separa os resultados da consulta em páginas. E o Sina limita a página dos resultados a 50. Portanto, para cada consulta, apenas 50 páginas dos resultados podem ser acessadas pelos usuários. E cada página contém 20 postagens. Portanto, para cada pesquisa, existem no máximo 1000 postagens podem ser obtidas. No entanto, pode ser o caso de haver menos de 1000 postagens da consulta. Portanto, verifique o número máximo de páginas que contêm todos os resultados da consulta .
Execute o programa digitando python scraper.py
O navegador Firefox será executado, navegou para a página de pesquisa com a palavra -chave autimaticamente.
Os resultados estarão na pasta output
no formato CSV. Cada consulta gera um arquivo CSV. O Excel tem problemas para exibir caracteres chineses. Portanto, a visualização através de outro editor de texto é melhor (se você estiver usando o Mac, pode usar números para abrir os arquivos CSV).
Por enquanto, este programa suporta apenas a consulta com a palavra -chave para minha própria finalidade. Todo mundo está livre para explorar novos recursos. É preciso observar uma coisa que ela não usa a API do Sina Weibo, pois o Weibo limita a quantidade de dados para consultar se a API for usada. Basicamente, usa o biscoito Broswer para fazer o login, o endereço da URL para fazer a pesquisa. Por favor, envie uma solicitação de tração se você for lido para contribuir.
Este projeto está licenciado sob a licença do MIT - consulte o arquivo License.txt para obter detalhes