Étant donné que la version Web mobile n'impose pas trop de restrictions aux robots d'exploration, elle peut explorer directement certaines données de recherche Weibo. L'API de recherche est la suivante :
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
Sur la base de cette API, une certaine quantité de données JSON peut être obtenue (voir sample.json pour les données originales). Après traitement, le format est le suivant :
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
Pour des robots d'exploration détaillés, voir weibo_search.py.
Le nuage de mots peut être implémenté à l'aide de wordcloud. Les étapes de base sont les suivantes :
Segmentation de mots et extraction de mots clés : le texte chinois nécessite une segmentation de mots et la suppression d'un grand nombre de mots vides, tels que (vous, moi, lui, ceci), afin de rendre le nuage de mots généré plus significatif. Cette étape peut être complétée directement à l'aide de l'extraction de mots-clés TF-IDF du segmenteur de mots Jieba.
Ce qui est passé dans wordcloud est une chaîne et une image sous-jacente. Concaténez les mots-clés obtenus lors de la première étape avec des espaces. Pour la sélection de l'image sous-jacente, essayez de choisir une image de fond blanc, afin que l'image générée soit plus proche de l'image sous-jacente. photo originale.
Voir weibo_cloud.py pour les détails du code.
Mots-clés : iPhone
Mots-clés : Microsoft
Mots-clés : Google