Criação contínua e entrega infinita
Este projeto usa o método de gerenciamento para capturar artigos de contas públicas do WeChat. Primeiro, você precisa entender os dois métodos principais de captura de contas públicas do WeChat.
Como capturar com elegância artigos históricos de contas públicas do WeChat
Portanto, agora geralmente existem dois métodos, um é por meio do Sogou WeChat e o outro é por meio de proxy. Este projeto usa o método de proxy para capturar.
Originalmente, escrevi uma ferramenta mais complexa, usando o anyproxy do Node.js e a estrutura Laravel do PHP para completar essas funções, mas um dia, quando estava tomando banho, finalmente descobri que na verdade havia complicado uma ferramenta que era originalmente muito simples. Dei algumas orientações para um amigo da mídia e ele começou a usar muito rapidamente.
Há duas coisas na saída, uma é wechat.sqlite e a outra é wechat.csv Wechat.csv precisa ser gerado pelo comando wechat_spider csv
.
A seguir estão os dados correspondentes à minha conta pública:
Explicação do cabeçalho da tabela:
accountName: 公众号名称 author: 作者 title: 文章标题 contentUrl: 文章链接 cover: 文章封面图 digest: 文章摘要 idx: 如果是1,代表的是当天第一篇文章,如果是2,代表当天第二篇文章,以此类推。 sourceUrl: 阅读原文对应的链接 createTime: 文章创建时间 readNum: 阅读数 likeNum: 点赞数 rewardNum: 赞赏数 electedCommentNum: 被选择显示的回复数
Baixe a versão mais recente do site https://nodejs.org/zh-cn/.
Por ser baseado em sqlite, o processo de compilação por meio de node-gyp requer python 2.x (3.x não funciona) e VCBuild.exe, portanto, os alunos do Windows devem instalá-lo, caso contrário, ocorrerão erros.
Os usuários do Windows podem baixar e instalar as dependências do ambiente de compilação digitando npm install --global --production windows-build-tools
no PowerShell com direitos de administrador.
No Mac, no terminal, no Windows, no cmd:
$npm-v 4.3.0 $ python Python 2.7.6 (padrão, 18 de novembro de 2013, 15:12:51) [Compatível com GCC 4.2.1 Apple LLVM 5.0 (clang-500.2.79)] em darwin Digite “ajuda”, “copyright”, “créditos” ou “licença” para obter mais informações. >>>
Se forem exibidas informações semelhantes às acima, isso prova que a ferramenta foi instalada.
$ npm instalar wechat_spider -g
$ wechat_spider --ajuda Uso: wechat_spider [opções] Opções: -h, --help informações de uso de saída -V, --version exibe o número da versão
Se informações semelhantes às acima forem exibidas, isso prova que o wechat_spider foi instalado com sucesso.
Existem quatro etapas a serem usadas: ativar o proxy, definir o proxy em seu telefone, verificar o histórico da conta pública, iniciar o rastreamento automático e, finalmente, gerar um csv.
Passo 1: Abra a ferramenta no terminal no Mac ou cmd no Windows:
$wechat_spider
Um certificado confiável é necessário pela primeira vez.
A pasta do certificado será aberta por padrão. Se não estiver aberta, abra http://localhost:8002/fetchCrtFile no navegador e você também poderá obter o arquivo rootCA.crt. Após obter o certificado raiz, clique duas vezes nele e. siga as instruções do sistema operacional para confiar no rootCA:
Windows
Mac
Etapa 2: use proxy móvel:
Pela primeira vez, você precisa instalar um certificado no seu celular Abra o navegador: http://localhost:8002/qr_root Use o WeChat para escanear o código QR.
Em seguida, obtenha o endereço IP do seu computador, presumindo que seja 192.168.1.5
Defina o proxy móvel para o computador:
Passo 3: Selecione uma conta oficial do WeChat e clique para ver o histórico
Passo 4: Aguarde até que a página “Coleta de conta pública concluída” apareça, então você pode gerar csv.
$ wechat_spider csv
Sou Jinma, um programador que quer fazer alguma coisa. Se este gadget for útil para você, você pode me pagar uma xícara de café, obrigado :)
MIT.