weibo_wordcloud
1.0.0
モバイル Web バージョンではクローラーにあまり多くの制限が課されていないため、一部の Weibo 検索データを直接クロールできます。検索APIは以下のとおりです。
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
この API に基づいて、一定量の JSON データを取得できます (元のデータについては、sample.json を参照)。処理後の形式は次のとおりです。
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
クローラーの詳細については、weibo_search.py を参照してください。
Wordcloud を使用して Word Cloud を実装できます。基本的な手順は次のとおりです。
単語の分割とキーワードの抽出: 中国語のテキストでは、生成されたワード クラウドをより意味のあるものにするために、単語の分割と (あなた、私、彼、これ) などの多数のストップ ワードの削除が必要です。このステップは、jieba 単語セグメンタの TF-IDF キーワード抽出を使用して直接完了できます。
Wordcloud に渡されるのは、文字列と基礎となる画像です。最初のステップで取得したキーワードをスペースで連結します。基礎となる画像の選択には、生成された画像がより近くなるように、白い背景の画像を選択するようにしてください。原画。
コードの詳細については、weibo_cloud.py を参照してください。
キーワード: iPhone
キーワード: マイクロソフト
キーワード: グーグル