weibo_wordcloudダウンロード - weibo_wordcloudソースコードのダウンロード

weibo_wordcloud

その他のソースコード

1.0.0

ダウンロード

Weibo クローラーとワードクラウドの表示

環境

パイソン3
リクエスト
ジエバ
マットプロットライブラリ
ワードクラウド
サイピー

爬虫類

モバイル Web バージョンではクローラーにあまり多くの制限が課されていないため、一部の Weibo 検索データを直接クロールできます。検索APIは以下のとおりです。

 https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}

この API に基づいて、一定量の JSON データを取得できます (元のデータについては、sample.json を参照)。処理後の形式は次のとおりです。

{
    "mid" : " 4199434918992223 " ,
    "text" : " 【深度学习的终极形态】近期，院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告，分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”，让软件发挥灵活性，硬件发挥高效率。我们整理了本次报告的重点，希望能对大家有所帮助！  ...全文" ,
    "userid" : " 1286528122 " ,
    "username" : "微软亚洲研究院" ,
    "reposts_count" : 21 ,
    "comments_count" : 1 ,
    "attitudes_count" : 9
}

クローラーの詳細については、weibo_search.py を参照してください。

単語の雲

Wordcloud を使用して Word Cloud を実装できます。基本的な手順は次のとおりです。

単語の分割とキーワードの抽出: 中国語のテキストでは、生成されたワードクラウドをより意味のあるものにするために、単語の分割と (あなた、私、彼、これ) などの多数のストップワードの削除が必要です。このステップは、jieba 単語セグメンタの TF-IDF キーワード抽出を使用して直接完了できます。
Wordcloud に渡されるのは、文字列と基礎となる画像です。最初のステップで取得したキーワードをスペースで連結します。基礎となる画像の選択には、生成された画像がより近くなるように、白い背景の画像を選択するようにしてください。原画。

コードの詳細については、weibo_cloud.py を参照してください。