ว่ากันว่าผู้คนบนอินเทอร์เน็ตมีความทรงจำเพียงเจ็ดวินาที แต่ฉันต้องการบันทึกความทรงจำเจ็ดวินาทีนี้
โปรเจ็กต์ได้รับการปรับใช้บนเซิร์ฟเวอร์ โดยจะรวบรวมข้อมูลรายการค้นหายอดนิยมของ Weibo เป็นประจำทุกวัน เวลา 11.00 น. และ 23.00 น. บันทึกในรูปแบบไฟล์ Markdown จากนั้นอัปโหลดและสำรองข้อมูลไปยัง GitHub คุณสามารถดาวน์โหลดและดูได้ตามต้องการ .
อย่าถามฉันว่าทำไมฉันถึงเลือกจุดเวลาสองจุดจาก 11 จุด เพราะฉันรู้สึกเสมอว่าเหตุการณ์สำคัญจะเกิดขึ้นรอบสองจุดเวลานี้
ไม่ว่าคำค้นหาที่มาแรงใน Weibo จะเป็นเรื่องเกี่ยวกับครอบครัว กิจการระดับชาติ กิจการโลก หรือข่าวซุบซิบบันเทิงก็ตาม ฉันแค่อยากจะบันทึกไว้อย่างซื่อสัตย์...
หลาม 3.0+
pip install requests
pip install lxml
pip install bs4
หรือดำเนินการ
pip install -r requirements.txt
สภาพแวดล้อมที่จำเป็นสำหรับการติดตั้งและการใช้งาน
weibo_Hot_Search_bs4.py
(ใหม่) หรือ weibo_Hot_Search.py
ในไดเรกทอรีคลังสินค้าpython weibo_Hot_Search_bs4.py
(ใหม่) หรือ python weibo_Hot_Search.py
เป็น cmdหลังจากรันแล้ว โฟลเดอร์ที่มีชื่อตามเวลาจะถูกสร้างขึ้นในโฟลเดอร์ปัจจุบัน ดังนี้:
2019年11月08日
(อัปเดต) และไฟล์ Markdown ที่ตั้งชื่อตามเวลาที่กำหนดในชั่วโมงที่กำหนดจะถูกสร้างขึ้นดังนี้:
2019年11月08日15点.md
(อัปเดตต่อ) และไฟล์ CSV ที่ตั้งชื่อตามเวลาที่กำหนดในเวลาที่กำหนดจะถูกสร้างขึ้นดังนี้:
2020年08月27日00点.csv
ลิงก์รายการค้นหายอดนิยมสาธารณะบน Sina Weibo ถูกใช้: https://s.weibo.com/top/summary/
แหล่งข้อมูลทั้งหมดสำหรับโครงการนี้มาจาก Sina Weibo เนื้อหาข้อมูลและสิทธิ์ในการตีความเป็นของ Sina Weibo
weibo_Hot_Search_bs4.py
./bs4版数据/
รูปแบบข้อมูลที่จัดเก็บคือ序号-标题-热度(或置顶)
รูปแบบนี้ง่ายต่อการประมวลผลและอำนวยความสะดวกในการแสดงภาพข้อมูลและการวิเคราะห์อื่นๆ ในภายหลัง.csv
ใหม่จะถูกจัดเก็บไว้ในโฟลเดอร์ bs4[.csv]版数据
bs4[txt]版数据
และ lxml版数据
ถูกหยุดแล้ว ข้อมูลใหม่ทั้งหมดจะถูกบันทึกไว้ในไฟล์ข้อมูลเวอร์ชัน bs4[.csv]
ใบอนุญาตสาธารณะทั่วไปของ GNU v3.0