wechat articles crawler下載 - wechat articles crawler原始碼下載

wechat articles crawler

Ai源碼

1.0.0

下載

基於anyproxy的微信公眾號文章爬取，包含閱讀數點讚數

錄製的影片：點擊前往

基本原理

AnyProxy是一個阿里開源的HTTP代理伺服器，類似fiddler和charles，但提供了二次開發能力，可以編寫js程式碼改變http/https請求和回應
為了爬取一個微信公眾號的全部文章，首先就是獲取全部文章，然後一篇一篇去打開獲取文章標題，作者，閱讀數，點贊數（閱讀點贊數只能在微信app內置瀏覽器獲取）
每個微信公眾號都提供查看历史消息的功能，點擊去打開這個網頁，不停下滾，可以查到全部發布文章。在這一步，基於anyproxy，修改了這個網頁html，注入一段讓頁面不停往下滾動的js腳本，當滾到底部，就獲取了全部文章列表。本質上是中間人攻擊。
取得完全部文章的內容（包括url，標題，發佈時間等等）後，下一步就是循環通知微信瀏覽器一個一個去打開這些文章網頁。每個文章網頁也注入js腳本，功能是不停的檢查頁面的點讚數和閱讀數，檢測到，就往某服務器發，後台每成功收到一個文章的點贊數和閱讀數，就通知微信瀏覽器打開下一個url。這裡我使用了socketio，實作微信瀏覽器和自建的koa伺服器之間的通訊。

如圖所示：

取得文章列表示範:

一篇一篇開啟文章連結:

如何運作

第一步，一定要安裝成功anyproxy，這一步請詳細閱讀anyproxy的官方教程，寫的很詳細，要保證能成功代理https，能查看到https的body內容。

 yarn install
yarn start

會自動開啟一個result.html，即時查看爬取文章的內容點擊一個微信公眾號，點擊查看歷史消息，之後歷史頁面會不停的滾動到底，滾動完畢，就開始一篇一篇打開文章，爬取內容。

具體過程

1.第一步，要取得一個公眾號的全部歷史文章。在已經設定好anyproxy代理的真機上，查看歷史消息，這時微信會開啟歷史文章網頁。取得一個html文件：， var msgList就是我們需要的歷史文章數據，簡單正則匹配出來，替代非法字符，JSON.parse轉成我們需要的格式。基於anyproxy，我們給這個html文件注入一段腳本，目的是讓這個網頁不停的往下自己滾動，觸發瀏覽器去獲得更多的文章。

 var scrollKey = setInterval ( function ( ) {
    window . scrollTo ( 0 , document . body . scrollHeight ) ;
} , 1000 ) ;

當網頁滾到底，再次獲取文章，這個時候，同樣的是get請求，但是返回了Content-Type為application/json的格式，這裡同樣的方法，正則匹配找出並格式化成我們需要的格式

同時當can_msg_continue為0時，表示已經拉到底，取得了全部文章。

至此，獲得了一個公眾號的全部文章，包括文章標題，作者，url。但是沒有閱讀數和點讚數，這需要打開具體的文章鏈接，才能看到。

我們還沒拿到閱讀數和按讚數，接下來就是一步一步讓微信瀏覽器不停地打開具體文章，觸發微信瀏覽器取得閱讀數和按讚數。這裡使用了socket.io，讓文章頁面連接自訂的伺服器，伺服器主動通知瀏覽器下一個點開的文章鏈接，這樣雙向通訊，一個循環就能獲取具體文章的閱讀數和點讚。

 socket . on ( 'url' , function ( data ) {
    window . location = data . url ;
} ) ;

閱讀數和讚可以在瀏覽器端，不停檢查dom元素是否渲染出來然後收集發送到伺服器，也可以直接anyproxy檢查出來（這裡我採用前一種）。

 key = setInterval ( function ( ) {
        var readNum = $ ( '#readNum3' ) . text ( ) . trim ( ) ;

        if ( ! readNum ) return ;
        var likeNum = $ ( '#likeNum3' ) . text ( ) . trim ( ) ;
        var postUser = $ ( '#post-user' ) . text ( ) . trim ( ) ;
        var postDate = $ ( '#post-date' ) . text ( ) . trim ( ) || $ ( '#publish_time' ) . text ( ) . trim ( ) ;
        var activityName = $ ( '#activity-name' ) . text ( ) . trim ( ) ;
        var js_share_source = $ ( '#js_share_source' ) . attr ( 'href' ) ;
        socket . emit ( 'crawler' , {
            readNum : readNum ,
            likeNum : likeNum ,
            postUser : postUser ,
            postDate : postDate ,
            activityName : activityName ,
            js_share_source : js_share_source
        } ) ;
    } , 1000 ) ;

實踐過程的注意點

原理很簡單，基於真機的爬蟲，中間人攻擊，注入javascript腳本，讓瀏覽器模擬人的操作過程。

禁止網頁的Content-Security-Policy。 CSP 的實質就是白名單制度，開發者明確告訴客戶端，哪些外部資源可以載入和執行，等於提供白名單。如果不停用，注入的javascript將無法執行。這裡的做法，簡單粗暴的刪除http回應的任何和csp有關的頭部。

 // 删除微信网页的安全策略
delete header [ 'Content-Security-Policy' ] ;
delete header [ 'Content-Security-Policy-Report-Only' ] ;

禁止微信瀏覽器快取頁面內容，同樣要修改回應頭的和快取相關的內容。

 header [ 'Expires' ] = 0 ;
 header [ 'Cache-Control' ] = 'no-cache, no-store, must-revalidate' ;

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-01-19
大小 38.71KB
來自於 Github

相關應用

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部

wechat articles crawler

基於anyproxy的微信公眾號文章爬取，包含閱讀數點讚數

基本原理

如何運作

具體過程

實踐過程的注意點

nhentai comic crawler

Web crawler novels

橋履帶式

Ycbw.Articles簡易建站程序

LCweb Articles源碼

Articles極速文章系統

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions