weibo_wordcloud
1.0.0
由於行動裝置網頁版並未對爬蟲做太大的限制,因此可以直接爬取微博搜尋部分資料。搜尋API 如下:
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
基於這個API 可以取得到一定量的JSON 資料(原始資料見sample.json),經過處理後,格式如下:
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
詳細的爬蟲請見weibo_search.py。
詞雲的實作可以使用wordcloud,基本的步驟是:
分詞與關鍵字提取:中文的文本需要分詞和去除大量的停用詞,例如(你,我,他,這是), 才能使得生成的詞雲圖更加有意義。這一步,使用jieba 分詞器的TF-IDF 關鍵字提取,就可以直接完成。
傳入wordcloud 的是一個字串以及一幅底層圖像,將第一步得到的關鍵字用空格串聯起來, 對於底層圖像的選取,盡量選擇白底無背景圖像,這樣生成的圖像就會更加接近原圖。
程式碼詳見weibo_cloud.py。
關鍵字:iPhone
關鍵字:微軟
關鍵字:Google