นี่คือเครื่องขูดเว็บสำหรับการค้นหา Sina Weibo ด้วยคำหลัก
มีร่องรอย Sina Weibo อยู่บ้าง อย่างไรก็ตามพวกเขาทั้งหมดถูกนำไปใช้กับ Weibo API Sina Weibo จำกัด จำนวนข้อมูลที่สามารถรับได้ในแต่ละชั่วโมงวันและเดือนหากใช้ API นี่คือเครื่องขูดเว็บสำหรับการค้นหา Sina Weibo โดยคำหลักที่นำมาใช้โดยการเข้ารหัส URL บริสุทธิ์เพื่อให้มันจำลองเบราว์เซอร์จริงนำทางไปยังหน้าและเข้าถึงข้อมูล มันกำจัดขีด จำกัด เป็นไปได้ว่า Weibo จะให้คุณป้อนรหัสการยืนยันเพื่อพิสูจน์ว่าคุณไม่ใช่เครื่องจักร แต่ไม่บ่อยนัก
Xuzhou Yin เว็บไซต์ส่วนบุคคล: www.xuzhouyin.com
เปิดเทอร์มินัลและนำทางไปยังไดเรกทอรีที่คุณต้องการจัดเก็บโปรแกรมจากนั้นพิมพ์ git clone address
เพื่อดาวน์โหลดโปรแกรม
pip install selenium
pip install time
pip install bs4
pip install urllib
pip install datetime
pip install unicodecsv
Sina Weibo จำกัด การอนุญาตให้ใช้คุณสมบัติการค้นหาที่ผู้ใช้เท่านั้นที่ลงชื่อเข้าใช้เท่านั้นที่สามารถใช้การค้นหาขั้นสูง (เช่นการค้นหาในช่วงเวลาที่กำหนด) ดังนั้นโปรดลงทะเบียนสำหรับบัญชี Sina Weibo และลงชื่อเข้าใช้ผ่านเบราว์เซอร์ Firefox (ดังนั้น Firefox จะลงนามโดยอัตโนมัติในครั้งต่อไป) จากนั้นค้นหาเส้นทางของโปรไฟล์ Firefox (ดูว่าจัดเก็บโปรไฟล์ Firefox ไว้ที่ไหน) และแทนที่เส้นทางในบรรทัด 49 ใน scraper.py
ไฟล์ query.txt
สำหรับการจัดเก็บแบบสอบถามทั้งหมด โปรดเพิ่มการสืบค้นในรูปแบบของ keyword;eventDate;startDate;endDate;pageofResult
, หนึ่งการสืบค้นต่อบรรทัด Sina Weibo ไม่รองรับคุณสมบัติ "เลื่อนไปด้านล่างเพื่อดูเพิ่มเติม" ในการค้นหา แต่จะแยกผลลัพธ์การสืบค้นออกเป็นหน้า และ Sina จำกัด หน้าผลลัพธ์ไว้ที่ 50 ดังนั้นสำหรับแต่ละแบบสอบถามผู้ใช้สามารถเข้าถึงผลลัพธ์ได้เพียง 50 หน้าเท่านั้น และแต่ละหน้ามี 20 โพสต์ ดังนั้นสำหรับการค้นหาแต่ละครั้งมีโพสต์สูงสุด 1,000 โพสต์ อย่างไรก็ตามอาจเป็นกรณีที่มีโพสต์น้อยกว่า 1,000 โพสต์จากการสืบค้น ดังนั้นโปรดตรวจสอบจำนวนหน้าสูงสุดที่มีผลลัพธ์ทั้งหมดของแบบสอบถาม
เรียกใช้โปรแกรมโดยพิมพ์ python scraper.py
เบราว์เซอร์ Firefox จะถูกดำเนินการนำทางไปยังหน้าค้นหาด้วยคำหลักโดยอัตโนมัติ
ผลลัพธ์จะอยู่ในโฟลเดอร์ output
ในรูปแบบ CSV แต่ละแบบสอบถามสร้างไฟล์ CSV หนึ่งไฟล์ Excel มีปัญหาในการแสดงอักขระจีน ดังนั้นการดูผ่านตัวแก้ไขข้อความอื่นจะดีกว่า (ถ้าคุณใช้ Mac คุณสามารถใช้หมายเลขเพื่อเปิดไฟล์ CSV)
สำหรับตอนนี้โปรแกรมนี้รองรับการสืบค้นด้วยคำหลักเพื่อจุดประสงค์ของฉันเองเท่านั้น ทุกคนมีอิสระที่จะสำรวจคุณสมบัติใหม่ ๆ มีสิ่งหนึ่งที่ต้องสังเกตว่ามันไม่ได้ใช้ Sina Weibo API เนื่องจาก Weibo จำกัด จำนวนข้อมูลในการสืบค้นหากใช้ API โดยทั่วไปใช้คุกกี้ Broswer เพื่อเข้าสู่ระบบที่อยู่ URL เพื่อค้นหา โปรดส่งคำขอดึงหากคุณอ่านเพื่อมีส่วนร่วม
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT - ดูไฟล์ license.txt สำหรับรายละเอียด