Download SinaWeiboScraper - SinaWeiboScraper Download do código -fonte

SinaWeiboScraper

Outro código-fonte

1.0.0

Baixar

Sinaweiboscraper

Este é um raspador da web para pesquisa de Sina Weibo por palavras -chave

Por que usar SinaweibosCraper?

Existe alguns raspadores de Sina Weibo. No entanto, todos eles são implementados com a API Weibo. Sina Weibo limita a quantidade de dados que podem ser obtidos a cada hora, dia e mês se a API for usada. Este é um raspador da web para a pesquisa de Sina Weibo por palavras -chave implementadas pela codificação Pure URL, para que simule um navegador real, navegue para a página e tenha acesso aos dados. Ele se livra dos limites. É possível que o Weibo permita que você insira o código de verificação para provar que você não é uma máquina, mas não é frequentemente.

Autor

Xuzhou yin. Site pessoal: www.xuzhouyin.com

Como baixar

Open Terminal e navegue até o diretório em que deseja armazenar o programa e digite git clone address para baixar o programa

Dependências

Python 2.7 ou acima
Navegador do Firefox (outros navegadores podem ser apoiados no futuro)
selênio. Tipo pip install selenium
tempo. Digite pip install time
BS4. Tipo pip install bs4
urllib. Tipo pip install urllib
DateTime. Digite pip install datetime
unicodecsv. Tipo pip install unicodecsv

Como usar

Antes de executar o programa

O Sina Weibo limita a permissão do recurso de pesquisa que apenas os usuários assinaram pode usar pesquisas avançadas (como pesquisa com período de tempo específico). Portanto, registre -se em uma conta do Sina Weibo e faça login no Firefox Browser (para que o Firefox assina automaticamente na próxima vez). Em seguida, encontre o caminho do perfil do Firefox (consulte o perfil do Firefox armazenado). e substitua o caminho na linha 49 no scraper.py .

Consulta

O arquivo query.txt é para armazenar todas as consultas. Adicione consultas na forma de keyword;eventDate;startDate;endDate;pageofResult , uma consulta por linha. O Sina Weibo não suporta "role para baixo para ver mais" recurso na pesquisa. Em vez disso, separa os resultados da consulta em páginas. E o Sina limita a página dos resultados a 50. Portanto, para cada consulta, apenas 50 páginas dos resultados podem ser acessadas pelos usuários. E cada página contém 20 postagens. Portanto, para cada pesquisa, existem no máximo 1000 postagens podem ser obtidas. No entanto, pode ser o caso de haver menos de 1000 postagens da consulta. Portanto, verifique o número máximo de páginas que contêm todos os resultados da consulta .

Execute o programa

Execute o programa digitando python scraper.py

O que acontece durante a execução

O navegador Firefox será executado, navegou para a página de pesquisa com a palavra -chave autimaticamente.

Saída

Os resultados estarão na pasta output no formato CSV. Cada consulta gera um arquivo CSV. O Excel tem problemas para exibir caracteres chineses. Portanto, a visualização através de outro editor de texto é melhor (se você estiver usando o Mac, pode usar números para abrir os arquivos CSV).

Como desenvolver

Por enquanto, este programa suporta apenas a consulta com a palavra -chave para minha própria finalidade. Todo mundo está livre para explorar novos recursos. É preciso observar uma coisa que ela não usa a API do Sina Weibo, pois o Weibo limita a quantidade de dados para consultar se a API for usada. Basicamente, usa o biscoito Broswer para fazer o login, o endereço da URL para fazer a pesquisa. Por favor, envie uma solicitação de tração se você for lido para contribuir.