wechat_articles_spider下載 - wechat_articles

下載

微信公眾號文章爬蟲（微信文章閱讀按讚的取得）

安裝

pip install wechatarticles

展示地址：

~~日更，獲取公眾號的最新文章鏈接，支持日更閱讀點讚評論正文~~

註：本項目僅供學習交流，嚴禁用於商業用途（此項目也沒辦法直接使用），無法達到開箱即用的程度。使用本專案需讀取文件+原始碼+動手實踐，參考範例程式碼（ test資料夾下）進行改寫。

提示：另外，已經有很多朋友（大佬）透過直接看源碼，已經基於這套項目，或者重寫，用於各自的需求。

實現思路一:

完整想法可以參考我的部落格: 記一次微信公眾號爬蟲的經歷（微信文章閱讀點讚的獲取）

實現思路二：

登陸微信PC端或行動端取得公眾號所有文章的url，這種取得到的url數量大於500，具體數量每個微訊號不完全一致（目前只能一次性，無法取得第二次！！！請慎重使用test_GetUrls.py ，最好不用。
同上種方法，取得文章閱讀數、按讚數、評論訊息

公開已爬取的公眾號歷史文章的永久鏈接，日期均截止commit時間，僅供測試與學習，歡迎各位關注這些優質公眾號。

公眾號列表

科技美學

共青團中央

南方週末

AppSo

## Notes

計畫始於2017年，目前更新於2023年3月

專案程式碼進行調整，呼叫先前的介面請使用pip install wechatarticles 。

爬取失敗的時候，可能有以下原因
1. 運作的時候需要關閉網路代理（抓包軟體），或加入相關參數
2. 參數是否最新，取得微信相關參數（cookie、token）時，一定要保證是對應公眾號的任意文章
3. 檢查程式碼
4. 需要注意對應公眾號（Maybe）
思路一取得url時，每頁間隔可以設定久一點，例如3分鐘，持續時間幾小時（來自網友測驗）
取得文章閱讀按讚時，每篇文章可設定在5-10s左右，過期時間為4小時；若被封，約5-10分鐘就可繼續抓取。
思路二獲取url時，若被封，需要24小時整之後才能重新抓取（該條作廢，暫時不能解封）

參數文件說明請見README