สร้างสรรค์อย่างต่อเนื่องและส่งมอบอย่างไม่มีที่สิ้นสุด
โปรเจ็กต์นี้ใช้วิธีการจัดการเพื่อรวบรวมบทความบัญชีสาธารณะ WeChat ก่อนอื่นคุณต้องเข้าใจวิธีการหลักสองวิธีในการจับบัญชีสาธารณะ WeChat โปรดดูบทความของฉัน:
วิธีบันทึกบทความประวัติศาสตร์ของบัญชีสาธารณะ WeChat อย่างสวยงาม
โดยทั่วไปแล้วมีสองวิธี วิธีหนึ่งคือผ่าน Sogou WeChat และอีกวิธีคือผ่านพรอกซี โปรเจ็กต์นี้ใช้วิธีการพร็อกซีในการจับภาพ
เดิมทีฉันเขียนเครื่องมือที่ซับซ้อนกว่านี้โดยใช้ anyproxy ของ Node.js และเฟรมเวิร์ก Laravel ของ PHP เพื่อทำหน้าที่เหล่านี้ให้สมบูรณ์ แต่วันหนึ่งเมื่อฉันอาบน้ำ ในที่สุดฉันก็พบว่าฉันมีเครื่องมือที่ซับซ้อนซึ่งเดิมทีมันง่ายมาก ฉันให้คำแนะนำกับเพื่อนสื่อแล้วเขาก็เริ่มใช้มันอย่างรวดเร็ว
มีสองสิ่งในเอาต์พุต สิ่งหนึ่งคือ wechat.sqlite และอีกอย่างคือ wechat.csv Wechat.csv จะต้องถูกสร้างขึ้นโดยคำสั่ง wechat_spider csv
ต่อไปนี้เป็นข้อมูลที่สอดคล้องกับบัญชีสาธารณะของฉัน:
คำอธิบายส่วนหัวของตาราง:
accountName: 公众号名称 author: 作者 title: 文章标题 contentUrl: 文章链接 cover: 文章封面图 digest: 文章摘要 idx: 如果是1,代表的是当天第一篇文章,如果是2,代表当天第二篇文章,以此类推。 sourceUrl: 阅读原文对应的链接 createTime: 文章创建时间 readNum: 阅读数 likeNum: 点赞数 rewardNum: 赞赏数 electedCommentNum: 被选择显示的回复数
ดาวน์โหลดเวอร์ชันล่าสุดจากเว็บไซต์ https://nodejs.org/zh-cn/
เนื่องจากต้องใช้ sqlite กระบวนการคอมไพล์ผ่าน node-gyp จึงต้องใช้ python 2.x (3.x ใช้งานไม่ได้) และ VCBuild.exe ดังนั้นผู้เรียน Windows จึงต้องติดตั้ง ไม่เช่นนั้นข้อผิดพลาดจะเกิดขึ้น
ผู้ใช้ Windows สามารถดาวน์โหลดและติดตั้งการพึ่งพาสภาพแวดล้อมการคอมไพล์โดยพิมพ์ npm install --global --production windows-build-tools
ใต้ PowerShell พร้อมสิทธิ์ของผู้ดูแลระบบ
บน Mac ใต้เทอร์มินัล บน Windows ภายใต้ cmd:
$npm-v 4.3.0 $หลาม Python 2.7.6 (ค่าเริ่มต้น 18 พ.ย. 2556, 15:12:51 น.) [GCC 4.2.1 รองรับ Apple LLVM 5.0 (clang-500.2.79)] บนดาร์วิน พิมพ์ "help", "copyright", "credits" หรือ "license" เพื่อดูข้อมูลเพิ่มเติม -
หากข้อมูลที่คล้ายกับที่กล่าวข้างต้นถูกส่งออกมา แสดงว่าเครื่องมือได้รับการติดตั้งแล้ว
$ npm ติดตั้ง wechat_spider -g
$ wechat_spider --help การใช้งาน: wechat_spider [ตัวเลือก] ตัวเลือก: -h, --help ข้อมูลการใช้งานเอาต์พุต -V, --version ส่งออกหมายเลขเวอร์ชัน
หากข้อมูลที่คล้ายกับที่กล่าวข้างต้นแสดงออกมา แสดงว่าติดตั้ง wechat_spider สำเร็จแล้ว
การใช้งานมีสี่ขั้นตอน: เปิดพร็อกซี ตั้งค่าพร็อกซีบนโทรศัพท์ของคุณ ตรวจสอบประวัติบัญชีสาธารณะ จากนั้นเริ่มรวบรวมข้อมูลโดยอัตโนมัติ และสุดท้ายสร้าง csv
ขั้นตอนที่ 1: เปิดเครื่องมือในเทอร์มินัลบน Mac หรือ cmd บน Windows:
$wechat_spider
จำเป็นต้องมีใบรับรองความน่าเชื่อถือเป็นครั้งแรก
โฟลเดอร์ใบรับรองจะถูกเปิดตามค่าเริ่มต้น หากไม่ได้เปิดอยู่ ให้เปิด http://localhost:8002/fetchCrtFile ในเบราว์เซอร์ และคุณยังสามารถรับไฟล์ rootCA.crt หลังจากได้รับใบรับรองหลักแล้ว ให้ดับเบิลคลิกและ ปฏิบัติตามระบบปฏิบัติการแจ้งให้เชื่อถือ rootCA:
หน้าต่าง
แม็ค
ขั้นตอนที่ 2: ใช้พร็อกซีมือถือ:
เป็นครั้งแรก คุณต้องติดตั้งใบรับรองบนโทรศัพท์มือถือของคุณ เปิดเบราว์เซอร์: http://localhost:8002/qr_root ใช้ WeChat เพื่อสแกนโค้ด QR
จากนั้นรับที่อยู่ IP ของคอมพิวเตอร์ของคุณ สมมติว่าเป็น 192.168.1.5
ตั้งค่าพร็อกซีมือถือเป็นคอมพิวเตอร์:
ขั้นตอนที่ 3: เลือกบัญชีอย่างเป็นทางการของ WeChat และคลิกเพื่อดูประวัติ
ขั้นตอนที่ 4: รอให้หน้า "การรวบรวมบัญชีสาธารณะเสร็จสมบูรณ์" ปรากฏขึ้น จากนั้นคุณสามารถสร้าง csv ได้
$ wechat_spider csv
ฉันชื่อจินมะ โปรแกรมเมอร์ที่อยากทำอะไรบางอย่าง หาก Gadget นี้เป็นประโยชน์กับคุณ คุณสามารถซื้อกาแฟให้ฉันได้หนึ่งแก้ว ขอบคุณ :)
เอ็มไอที.