Como a versão da web móvel não impõe muitas restrições aos rastreadores, ela pode rastrear diretamente alguns dados de pesquisa do Weibo. A API de pesquisa é a seguinte:
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
Com base nesta API, uma certa quantidade de dados JSON pode ser obtida (consulte sample.json para os dados originais). Após o processamento, o formato é o seguinte:
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
Para rastreadores detalhados, consulte weibo_search.py.
A nuvem do Word pode ser implementada usando o wordcloud. As etapas básicas são:
Segmentação de palavras e extração de palavras-chave: o texto chinês requer segmentação de palavras e a remoção de um grande número de palavras irrelevantes, como (você, eu, ele, isto), para tornar a nuvem de palavras gerada mais significativa. Esta etapa pode ser concluída diretamente usando a extração de palavras-chave TF-IDF do segmentador de palavras jieba.
O que é passado para o wordcloud é uma string e uma imagem subjacente. Concatene as palavras-chave obtidas na primeira etapa com espaços. Para a seleção da imagem subjacente, tente escolher uma imagem de fundo branca, para que a imagem gerada fique mais próxima da. imagem original.
Consulte weibo_cloud.py para obter detalhes do código.
Palavras-chave: iPhone
Palavras-chave: Microsoft
Palavras-chave: Google