Weibo_Hot_Search
1.0.0
インターネット上の人間の記憶力は7秒しかないと言われていますが、この7秒の記憶を記録したいと思っています。
プロジェクトはサーバー上にデプロイされており、毎日午前 11 時と午後 11 時に定期的に Weibo のホット検索リストをクロールし、Markdown ファイル形式で保存し、GitHub にアップロードしてバックアップします。 。
なぜ 11 という 2 つの時点を選んだのかは聞かないでください。私はこれら 2 つの時点の前後に大きな出来事が起こると常に感じているからです。
Weibo で熱い検索が家族のこと、国政、世界情勢、芸能ゴシップなど、どんなものであっても、私はそれを忠実に記録したいと思っています...
Python 3.0以降
pip install requests
pip install lxml
pip install bs4
または実行する
pip install -r requirements.txt
インストールおよび動作に必要な環境
weibo_Hot_Search_bs4.py
(新規) またはweibo_Hot_Search.py
を実行しますpython weibo_Hot_Search_bs4.py
(new) またはpython weibo_Hot_Search.py
を実行します実行後、次のように現在のフォルダーに時刻を付けた名前のフォルダーが生成されます。
2019年11月08日
(更新) と、次のように、特定の時間の特定の時間を指定した名前のマークダウン ファイルが生成されます。
2019年11月08日15点.md
(更新を続ける)すると、次のように、特定の時間の特定の時刻を付けた名前の csv ファイルが生成されます。
2020年08月27日00点.csv
新浪微博の公開ホット検索リストのリンクが使用されます: https://s.weibo.com/top/summary/
このプロジェクトのすべてのデータ ソースはSina Weibo から提供されており、データの内容とその解釈権は Sina Weibo に帰属します。
weibo_Hot_Search_bs4.py
を追加しました./bs4版数据/
ディレクトリに保存されます。保存データ形式は、序号-标题-热度(或置顶)
です。この形式は、処理が容易で、その後のデータの視覚化やその他の分析が容易になります。.csv
ファイルはbs4[.csv]版数据
フォルダーに保存されます。 bs4[txt]版数据
とlxml版数据
すべてbs4[.csv]
版データファイルに保存されます。GNU 一般公衆利用許諾書 v3.0