Création continue et livraison sans fin
Ce projet utilise la méthode de gestion pour capturer les articles des comptes publics WeChat. Tout d'abord, vous devez comprendre les deux méthodes principales de capture des comptes publics WeChat. Veuillez vous référer à mon article :
Comment capturer avec élégance les articles historiques des comptes publics WeChat
Alors maintenant, il existe généralement deux méthodes, l'une via Sogou WeChat et l'autre via proxy. Ce projet utilise la méthode proxy pour capturer.
À l'origine, j'avais écrit un outil plus complexe, en utilisant anyproxy de Node.js et le framework Laravel de PHP pour compléter ces fonctions. Mais un jour, alors que je prenais une douche, j'ai finalement compris que j'avais en fait compliqué un outil qui était à l'origine très simple. J'ai donné quelques conseils à un ami médiatique et il a commencé à l'utiliser très rapidement.
Il y a deux éléments dans la sortie, l'un est wechat.sqlite et l'autre est wechat.csv. Wechat.csv doit être généré par la commande wechat_spider csv
.
Voici les données correspondant à mon compte public :
Explication de l'en-tête du tableau :
accountName: 公众号名称 author: 作者 title: 文章标题 contentUrl: 文章链接 cover: 文章封面图 digest: 文章摘要 idx: 如果是1,代表的是当天第一篇文章,如果是2,代表当天第二篇文章,以此类推。 sourceUrl: 阅读原文对应的链接 createTime: 文章创建时间 readNum: 阅读数 likeNum: 点赞数 rewardNum: 赞赏数 electedCommentNum: 被选择显示的回复数
Téléchargez la dernière version sur le site Web https://nodejs.org/zh-cn/.
Parce qu'il repose sur sqlite, le processus de compilation via node-gyp nécessite python 2.x (3.x ne fonctionnera pas) et VCBuild.exe, les étudiants Windows doivent donc l'installer, sinon des erreurs se produiront.
Les utilisateurs Windows peuvent télécharger et installer les dépendances de l'environnement de compilation en tapant npm install --global --production windows-build-tools
sous PowerShell avec des droits d'administrateur.
Sur Mac, sous terminal, sous Windows, sous cmd :
$npm-v 4.3.0 $python Python 2.7.6 (par défaut, 18 novembre 2013, 15:12:51) [GCC 4.2.1 compatible Apple LLVM 5.0 (clang-500.2.79)] sur Darwin Tapez « aide », « copyright », « crédits » ou « licence » pour plus d'informations. >>>
Si des informations similaires à celles ci-dessus sont affichées, cela prouve que l'outil a été installé.
$ npm installer wechat_spider -g
$ wechat_spider --help Utilisation : wechat_spider [options] Possibilités : -h, --help afficher les informations d'utilisation -V, --version affiche le numéro de version
Si des informations similaires à celles ci-dessus sont affichées, cela prouve que wechat_spider a été installé avec succès.
Il y a quatre étapes à suivre : activez le proxy, définissez le proxy sur votre téléphone, vérifiez l'historique du compte public, puis lancez l'exploration automatique et enfin générez un fichier CSV.
Étape 1 : Ouvrez l'outil dans le terminal sur Mac ou cmd sous Windows :
$ wechat_spider
Un certificat de confiance est requis pour la première fois.
Le dossier du certificat sera ouvert par défaut. S'il n'est pas ouvert, ouvrez http://localhost:8002/fetchCrtFile dans le navigateur et vous pourrez également obtenir le fichier rootCA.crt. Après avoir obtenu le certificat racine, double-cliquez dessus et. suivez les invites du système d'exploitation pour faire confiance à rootCA :
Fenêtres
Mac
Étape 2 : Utiliser le proxy mobile :
Pour la première fois, vous devez installer un certificat sur votre téléphone mobile. Ouvrez le navigateur : http://localhost:8002/qr_root Utilisez WeChat pour scanner le code QR. [Important] Ouvrez le navigateur :
Obtenez ensuite l'adresse IP de votre ordinateur, en supposant qu'il s'agit de 192.168.1.5
Définir le proxy mobile sur l'ordinateur :
Étape 3 : Sélectionnez un compte officiel WeChat et cliquez pour afficher l'historique
Étape 4 : Attendez que la page « Collecte d'un compte public terminée » apparaisse, vous pourrez alors générer du csv.
$wechat_spidercsv
Je m'appelle Jinma, un programmeur qui veut faire quelque chose. Si ce gadget vous est utile, vous pouvez m'offrir une tasse de café, merci :)
MIT.