Download weibo_wordcloud - download do código-fonte weibo

weibo_wordcloud

Outro código-fonte

1.0.0

Baixar

Rastreador Weibo e exibição de nuvem de palavras

ambiente

Pitão 3
solicitações
jieba
matplotlib
nuvem de palavras
picante

réptil

Como a versão da web móvel não impõe muitas restrições aos rastreadores, ela pode rastrear diretamente alguns dados de pesquisa do Weibo. A API de pesquisa é a seguinte:

 https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}

Com base nesta API, uma certa quantidade de dados JSON pode ser obtida (consulte sample.json para os dados originais). Após o processamento, o formato é o seguinte:

{
    "mid" : " 4199434918992223 " ,
    "text" : " 【深度学习的终极形态】近期，院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告，分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”，让软件发挥灵活性，硬件发挥高效率。我们整理了本次报告的重点，希望能对大家有所帮助！  ...全文" ,
    "userid" : " 1286528122 " ,
    "username" : "微软亚洲研究院" ,
    "reposts_count" : 21 ,
    "comments_count" : 1 ,
    "attitudes_count" : 9
}

Para rastreadores detalhados, consulte weibo_search.py.

nuvem de palavras

A nuvem do Word pode ser implementada usando o wordcloud. As etapas básicas são:

Segmentação de palavras e extração de palavras-chave: o texto chinês requer segmentação de palavras e a remoção de um grande número de palavras irrelevantes, como (você, eu, ele, isto), para tornar a nuvem de palavras gerada mais significativa. Esta etapa pode ser concluída diretamente usando a extração de palavras-chave TF-IDF do segmentador de palavras jieba.
O que é passado para o wordcloud é uma string e uma imagem subjacente. Concatene as palavras-chave obtidas na primeira etapa com espaços. Para a seleção da imagem subjacente, tente escolher uma imagem de fundo branca, para que a imagem gerada fique mais próxima da. imagem original.

Consulte weibo_cloud.py para obter detalhes do código.