継続的な創造と終わりのない配信
このプロジェクトでは、WeChat パブリック アカウントの記事をキャプチャするための管理方法を使用します。まず、WeChat パブリック アカウントをキャプチャする 2 つの主流の方法を理解する必要があります。以下の記事を参照してください。
WeChat 公開アカウントの履歴記事をエレガントにキャプチャする方法
現在、一般的に 2 つの方法があり、1 つは Sogou WeChat を介する方法、もう 1 つはプロキシを使用する方法です。このプロジェクトでは、プロキシ方法を使用してキャプチャします。
当初、これらの機能を実行するために Node.js の anyproxy と PHP の Laravel フレームワークを使用して、より複雑なツールを作成していましたが、ある日シャワーを浴びているときに、当初は非常に単純だったツールを実際には複雑にしてしまったことに気づきました。メディアの友人にいくつかの指導をしたところ、彼はすぐに使い始めました。
出力には 2 つのものがあり、1 つは wechat.sqlite で、もう 1 つは wechat.csv です。wechat.csv はコマンドwechat_spider csv
によって生成される必要があります。
以下は私の公開アカウントに対応するデータです。
テーブルヘッダーの説明:
accountName: 公众号名称 author: 作者 title: 文章标题 contentUrl: 文章链接 cover: 文章封面图 digest: 文章摘要 idx: 如果是1,代表的是当天第一篇文章,如果是2,代表当天第二篇文章,以此类推。 sourceUrl: 阅读原文对应的链接 createTime: 文章创建时间 readNum: 阅读数 likeNum: 点赞数 rewardNum: 赞赏数 electedCommentNum: 被选择显示的回复数
最新バージョンを Web サイト https://nodejs.org/zh-cn/ からダウンロードします。
sqlite に依存しているため、node-gyp によるコンパイル プロセスには python 2.x (3.x は機能しません) と VCBuild.exe が必要なので、Windows の学生はそれをインストールする必要があります。インストールしないとエラーが発生します。
Windows ユーザーは、管理者権限を持つ PowerShell でnpm install --global --production windows-build-tools
と入力することで、コンパイル環境の依存関係をダウンロードしてインストールできます。
Mac の場合はターミナルの下、Windows の場合は cmd の下:
$ npm -v 4.3.0 $python Python 2.7.6 (デフォルト、2013 年 11 月 18 日、15:12:51) ダーウィンの [GCC 4.2.1 互換 Apple LLVM 5.0 (clang-500.2.79)] 詳細については、「ヘルプ」、「著作権」、「クレジット」、または「ライセンス」と入力してください。 >>>
上記のような情報が出力されていれば、ツールがインストールされていることがわかります。
$ npm install wechat_spider -g
$ wechat_spider --ヘルプ 使用法: wechat_spider [オプション] オプション: -h、--help 使用方法に関する情報を出力します -V、--version バージョン番号を出力します
上記のような情報が出力されれば、wechat_spiderが正常にインストールされていることがわかります。
使用するには 4 つの手順があります。プロキシをオンにし、携帯電話にプロキシを設定し、公開アカウントの履歴を確認し、自動的にクロールを開始し、最後に CSV を生成します。
ステップ 1: Mac のターミナルでツールを開くか、Windows の cmd を開きます。
$ wechat_spider
初めて信頼証明書が必要になります。
証明書フォルダーがデフォルトで開きます。開かれていない場合は、ブラウザで http://localhost:8002/fetchCrtFile を開き、ルート証明書を取得した後、それをダブルクリックして rootCA.crt ファイルを取得することもできます。オペレーティング システムのプロンプトに従って rootCA を信頼します。
窓
マック
ステップ 2: モバイル プロキシを使用します。
初めて、携帯電話に証明書をインストールする必要があります: http://localhost:8002/qr_root。WeChat を使用して QR コードをスキャンします。
次に、コンピュータの IP アドレスを取得します (192.168.1.5 と仮定します)。
モバイル プロキシをコンピュータに設定します。
ステップ 3: WeChat 公式アカウントを選択し、クリックして履歴を表示します
ステップ 4: 「公開アカウントの収集が完了しました」ページが表示されるまで待ち、CSV を生成できます。
$ wechat_spider csv
何かをやりたいプログラマーのじんまです。このガジェットが役に立ったら、コーヒーを買ってきてください、ありがとう :)
マサチューセッツ工科大学。