Download wechat articles crawler - download do código-fonte wechat articles crawler

wechat articles crawler

Código-Fonte de IA

1.0.0

Baixar

Rastreamento de artigos de contas públicas do WeChat com base em qualquer proxy, incluindo leituras e curtidas

Vídeo gravado: Clique para ir

Princípios básicos

AnyProxy é um servidor proxy HTTP de código aberto Alibaba, semelhante a Fiddler e Charles, mas fornece recursos de desenvolvimento secundários e pode escrever código js para alterar solicitações e respostas http/https.
Para rastrear todos os artigos de uma conta oficial do WeChat, primeiro obtenha todos os artigos e, em seguida, abra-os um por um para obter o título do artigo, autor, número de leituras e número de curtidas (o número de leituras e curtidas só pode ser obtido no navegador integrado do aplicativo WeChat))
Cada conta pública do WeChat oferece a função de查看历史消息. Clique para abrir esta página da web e continue rolando para ver todos os artigos publicados. Nesta etapa, com base em anyproxy, o html da página web é modificado e um script js é injetado para fazer a página rolar para baixo continuamente. Ao rolar para baixo, é obtida uma lista de todos os artigos. Essencialmente, um ataque man-in-the-middle.
Depois de obter o conteúdo de todos os artigos (incluindo URL, título, horário de publicação, etc.), a próxima etapa é notificar circularmente o navegador WeChat para abrir as páginas da web desses artigos, uma por uma. Cada página da web do artigo também é injetada com um script js. A função é verificar continuamente o número de curtidas e leituras da página. Se detectado, ele será enviado a um servidor sempre que o número de curtidas e leituras de um artigo. for recebido com sucesso em segundo plano, o navegador WeChat abrirá o próximo URL. Aqui eu uso o socketio para realizar a comunicação entre o navegador WeChat e o servidor koa autoconstruído.

Como mostrado na imagem:

Obtenha uma demonstração da lista de artigos:

Abra os links dos artigos um por um:

Como correr

A primeira etapa é instalar o anyproxy com êxito. Para esta etapa, leia o tutorial oficial do anyproxy em detalhes. Ele está escrito em detalhes para garantir que você possa fazer proxy de https com sucesso e visualizar o conteúdo do corpo de https.

 yarn install
yarn start

Um result.html será aberto automaticamente para visualizar o conteúdo dos artigos rastreados em tempo real. Clique em uma conta oficial do WeChat e clique para visualizar o histórico de mensagens. Depois disso, a página do histórico continuará a rolar até o final. os artigos serão abertos um por um e o conteúdo será rastreado.

processo específico

1. O primeiro passo é obter todos os artigos históricos de uma conta pública. Na máquina real onde o proxy anyproxy foi configurado, verifique as mensagens históricas. Neste momento, o WeChat abrirá a página do artigo histórico. Obtenha um documento HTML: var msgList são os dados históricos do artigo que precisamos, a correspondência regular simples é usada para substituir caracteres ilegais e JSON.parse é convertido no formato que precisamos. Com base em anyproxy, injetamos um script neste documento HTML para fazer a página rolar sozinha e acionar o navegador para obter mais artigos.

 var scrollKey = setInterval ( function ( ) {
    window . scrollTo ( 0 , document . body . scrollHeight ) ;
} , 1000 ) ;

Quando a página da web rola até o final, o artigo é obtido novamente. Neste momento, é a mesma solicitação get, mas o formato com Content-Type como application/json é retornado. O mesmo método aqui, a correspondência regular é usada. encontre e formate-o no formato que precisamos.

Ao mesmo tempo, quando can_msg_continue é 0, significa que foi puxado para baixo e todos os artigos foram obtidos.

Neste ponto, todos os artigos de uma conta pública foram obtidos, incluindo título do artigo, autor e URL. Mas não há leituras e curtidas. Você precisa abrir o link do artigo específico para vê-lo.

Ainda não obtivemos o número de leituras e curtidas. A próxima etapa é permitir que o navegador WeChat continue abrindo artigos específicos e acione o navegador WeChat para obter o número de leituras e curtidas. Socket.io é usado aqui para conectar a página do artigo a um servidor personalizado. O servidor notifica ativamente o navegador sobre o próximo link do artigo clicado. Dessa forma, a comunicação bidirecional pode obter a contagem de leituras e curtidas de um artigo específico em um. ciclo.

 socket . on ( 'url' , function ( data ) {
    window . location = data . url ;
} ) ;

O número de leituras e curtidas pode ser verificado continuamente no lado do navegador para ver se os elementos DOM são renderizados e então coletados e enviados ao servidor. Você também pode verificá-los diretamente com anyproxy (eu uso o método anterior aqui).

 key = setInterval ( function ( ) {
        var readNum = $ ( '#readNum3' ) . text ( ) . trim ( ) ;

        if ( ! readNum ) return ;
        var likeNum = $ ( '#likeNum3' ) . text ( ) . trim ( ) ;
        var postUser = $ ( '#post-user' ) . text ( ) . trim ( ) ;
        var postDate = $ ( '#post-date' ) . text ( ) . trim ( ) || $ ( '#publish_time' ) . text ( ) . trim ( ) ;
        var activityName = $ ( '#activity-name' ) . text ( ) . trim ( ) ;
        var js_share_source = $ ( '#js_share_source' ) . attr ( 'href' ) ;
        socket . emit ( 'crawler' , {
            readNum : readNum ,
            likeNum : likeNum ,
            postUser : postUser ,
            postDate : postDate ,
            activityName : activityName ,
            js_share_source : js_share_source
        } ) ;
    } , 1000 ) ;

Pontos a serem observados durante a prática

O princípio é muito simples. Baseado em rastreadores de máquinas reais, ataques man-in-the-middle e injeção de scripts javascript, deixe o navegador simular o processo de operação humana.

Política de segurança de conteúdo que proíbe páginas da web. A essência do CSP é o sistema de lista de permissões. Os desenvolvedores informam claramente ao cliente quais recursos externos podem ser carregados e executados, o que equivale a fornecer uma lista de permissões. Se não estiver desabilitado, o javascript injetado não será executado. A abordagem aqui é simplesmente excluir quaisquer cabeçalhos relacionados ao csp na resposta http.

 // 删除微信网页的安全策略
delete header [ 'Content-Security-Policy' ] ;
delete header [ 'Content-Security-Policy-Report-Only' ] ;

Proibir o navegador WeChat de armazenar em cache o conteúdo da página e também modificar o cabeçalho de resposta e o conteúdo relacionado ao cache.

 header [ 'Expires' ] = 0 ;
 header [ 'Cache-Control' ] = 'no-cache, no-store, must-revalidate' ;

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-01-19
tamanho 38.71KB
Vindo de Github

Aplicativos Relacionados

nhentai comic crawler

2024-11-06
Web crawler novels

2024-11-05
Rastreador de ponte

2022-08-16
Ycbw.Articles programa simples de construção de sites

2013-08-22
Código fonte dos artigos LCweb

2010-08-09
ArtigosSistema de artigos extremamente rápido

2009-05-17

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos