Diz-se que as pessoas na Internet têm apenas sete segundos de memória, mas quero gravar esses sete segundos de memória.
O projeto foi implantado no servidor. Ele irá rastrear a lista de pesquisas populares do Weibo regularmente às 11h e 23h todos os dias, salvá-la no formato de arquivo Markdown e, em seguida, carregá-la e fazer backup no GitHub. .
Não me pergunte por que escolhi os dois pontos no tempo de 11, porque sempre sinto que grandes eventos acontecerão em torno desses dois pontos no tempo.
Não importa quais sejam as pesquisas mais populares no Weibo sobre assuntos familiares, assuntos de estado, assuntos mundiais ou fofocas de entretenimento, eu só quero registrá-las fielmente...
Python 3.0+
pip install requests
pip install lxml
pip install bs4
ou executar
pip install -r requirements.txt
Ambiente necessário para instalação e operação
weibo_Hot_Search_bs4.py
(novo) ou weibo_Hot_Search.py
no diretório do warehousepython weibo_Hot_Search_bs4.py
(novo) ou python weibo_Hot_Search.py
em cmdApós a execução, uma pasta com o nome do tempo será gerada na pasta atual, conforme segue:
2019年11月08日
(Atualizado) e será gerado um arquivo Markdown nomeado com um horário específico em horários específicos, conforme segue:
2019年11月08日15点.md
(Continue atualizando) e um arquivo csv nomeado com um horário específico em horários específicos será gerado, conforme segue:
2020年08月27日00点.csv
O link da lista de pesquisa pública no Sina Weibo é usado: https://s.weibo.com/top/summary/
Todas as fontes de dados para este projeto vêm do Sina Weibo. O conteúdo dos dados e seus direitos de interpretação pertencem ao Sina Weibo.
weibo_Hot_Search_bs4.py
./bs4版数据/
. O formato dos dados de armazenamento é序号-标题-热度(或置顶)
. Este formato é fácil de processar e facilita a visualização subsequente dos dados e outras análises..csv
são armazenados bs4[.csv]版数据
. bs4[txt]版数据
e lxml版数据
bs4[.csv]
interrompidos.Licença Pública Geral GNU v3.0