Descarga wechat articles crawler - Descarga del código fuente wechat articles crawler

wechat articles crawler

Código Fuente de IA

1.0.0

Descargar

Rastreo de artículos de cuentas públicas de WeChat basados en anyproxy, incluidas lecturas y me gusta

Vídeo grabado: haga clic para ir

Principios básicos

AnyProxy es un servidor proxy HTTP de código abierto de Alibaba, similar a Fiddler y Charles, pero proporciona capacidades de desarrollo secundarias y puede escribir código js para cambiar solicitudes y respuestas http/https.
Para rastrear todos los artículos de una cuenta oficial de WeChat, primero obtenga todos los artículos y luego ábralos uno por uno para obtener el título del artículo, el autor, la cantidad de lecturas y la cantidad de me gusta (la cantidad de lecturas y me gusta solo puede obtenerse en el navegador integrado de la aplicación WeChat))
Cada cuenta pública de WeChat proporciona la función de查看历史消息. Haga clic para abrir esta página web y siga desplazándose para ver todos los artículos publicados. En este paso, basado en anyproxy, se modifica el html de la página web y se inyecta un script js para que la página se desplace hacia abajo continuamente. Al desplazarse hacia abajo, se obtiene una lista de todos los artículos. Esencialmente un ataque de intermediario.
Después de obtener el contenido de todos los artículos (incluida la URL, el título, la hora de publicación, etc.), el siguiente paso es notificar circularmente al navegador WeChat que abra las páginas web de estos artículos una por una. La página web de cada artículo también se inyecta con un script js. La función es verificar continuamente la cantidad de me gusta y lecturas en la página. Si se detecta, se enviará a un servidor cada vez que la cantidad de me gusta y lecturas de un artículo. se recibe correctamente en segundo plano, se le notificará que el navegador WeChat abre la siguiente URL. Aquí uso socketio para realizar la comunicación entre el navegador WeChat y el servidor koa de construcción propia.

Como se muestra en la imagen:

Obtenga una demostración de la lista de artículos:

Abra los enlaces del artículo uno por uno:

como correr

El primer paso es instalar anyproxy con éxito. Para este paso, lea en detalle el tutorial oficial de anyproxy. Está escrito con gran detalle para asegurarse de que pueda proxy https y ver el contenido del cuerpo de https con éxito.

 yarn install
yarn start

Se abrirá automáticamente un resultado.html para ver el contenido de los artículos rastreados en tiempo real. Haga clic en una cuenta oficial de WeChat y haga clic para ver los mensajes históricos. Después de eso, la página del historial continuará desplazándose hasta el final. Los artículos se abrirán uno por uno y se rastrearán.

proceso específico

1. El primer paso es obtener todos los artículos históricos de una cuenta pública. En la máquina real donde se configuró el proxy anyproxy, verifique los mensajes históricos. En este momento, WeChat abrirá la página web del artículo histórico. Obtenga un documento html: , var msgList son los datos históricos del artículo que necesitamos, se utiliza una coincidencia regular simple para reemplazar caracteres ilegales y JSON.parse se convierte al formato que necesitamos. Basado en anyproxy, inyectamos un script en este documento HTML para hacer que la página web se desplace hacia abajo por sí sola y active el navegador para obtener más artículos.

 var scrollKey = setInterval ( function ( ) {
    window . scrollTo ( 0 , document . body . scrollHeight ) ;
} , 1000 ) ;

Cuando la página web se desplaza hasta el final, el artículo se obtiene nuevamente. En este momento, es la misma solicitud de obtención, pero el formato con Content-Type se devuelve como application/json . Aquí se utiliza la coincidencia regular. búsquelo y formatéelo en el formato que necesitemos.

Al mismo tiempo, cuando can_msg_continue es 0, significa que se ha arrastrado hasta el final y se han obtenido todos los artículos.

En este punto, se han obtenido todos los artículos de una cuenta pública, incluido el título del artículo, el autor y la URL. Pero no hay lecturas ni me gusta. Debe abrir el enlace del artículo específico para verlo.

Aún no hemos obtenido la cantidad de lecturas y me gusta. El siguiente paso es permitir que el navegador WeChat siga abriendo artículos específicos y activar el navegador WeChat para obtener la cantidad de lecturas y me gusta. Socket.io se utiliza aquí para conectar la página del artículo a un servidor personalizado. El servidor notifica activamente al navegador el siguiente enlace del artículo en el que se hace clic. De esta manera, la comunicación bidireccional puede obtener el recuento de lecturas y los me gusta de un artículo específico en uno. ciclo.

 socket . on ( 'url' , function ( data ) {
    window . location = data . url ;
} ) ;

La cantidad de lecturas y me gusta se puede verificar continuamente en el lado del navegador para ver si los elementos DOM se procesan y luego se recopilan y se envían al servidor. También puede verificarlos directamente con anyproxy (yo uso el método anterior aquí).

 key = setInterval ( function ( ) {
        var readNum = $ ( '#readNum3' ) . text ( ) . trim ( ) ;

        if ( ! readNum ) return ;
        var likeNum = $ ( '#likeNum3' ) . text ( ) . trim ( ) ;
        var postUser = $ ( '#post-user' ) . text ( ) . trim ( ) ;
        var postDate = $ ( '#post-date' ) . text ( ) . trim ( ) || $ ( '#publish_time' ) . text ( ) . trim ( ) ;
        var activityName = $ ( '#activity-name' ) . text ( ) . trim ( ) ;
        var js_share_source = $ ( '#js_share_source' ) . attr ( 'href' ) ;
        socket . emit ( 'crawler' , {
            readNum : readNum ,
            likeNum : likeNum ,
            postUser : postUser ,
            postDate : postDate ,
            activityName : activityName ,
            js_share_source : js_share_source
        } ) ;
    } , 1000 ) ;

Puntos a tener en cuenta durante la práctica.

El principio es muy simple, basado en rastreadores de máquinas reales, ataques de intermediario e inyección de scripts javascript, deje que el navegador simule el proceso de operación humana.

Contenido-Seguridad-Política que prohíbe páginas web. La esencia de CSP es el sistema de lista blanca. Los desarrolladores le dicen claramente al cliente qué recursos externos se pueden cargar y ejecutar, lo que equivale a proporcionar una lista blanca. Si no está deshabilitado, el javascript inyectado no se ejecutará. El enfoque aquí es simplemente eliminar cualquier encabezado relacionado con csp en la respuesta http.

 // 删除微信网页的安全策略
delete header [ 'Content-Security-Policy' ] ;
delete header [ 'Content-Security-Policy-Report-Only' ] ;

Prohíba al navegador WeChat almacenar en caché el contenido de la página y también modifique el encabezado de respuesta y el contenido relacionado con la caché.

 header [ 'Expires' ] = 0 ;
 header [ 'Cache-Control' ] = 'no-cache, no-store, must-revalidate' ;

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-01-19
tamaño 38.71KB
Proviene de Github

Aplicaciones relacionadas

nhentai comic crawler

2024-11-06
Web crawler novels

2024-11-05
Puente sobre orugas

2022-08-16
Ycbw.Articles programa sencillo de creación de sitios web

2013-08-22
Código fuente de los artículos de LCweb

2010-08-09
ArtículosSistema de artículos extremadamente rápido

2009-05-17

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo

wechat articles crawler

Rastreo de artículos de cuentas públicas de WeChat basados ​​en anyproxy, incluidas lecturas y me gusta

Principios básicos

como correr

proceso específico

Puntos a tener en cuenta durante la práctica.

Rastreo de artículos de cuentas públicas de WeChat basados en anyproxy, incluidas lecturas y me gusta