เว่ยป๋อ แมงมุม
โปรแกรมนี้สามารถรวบรวมข้อมูลของผู้ใช้ Sina Weibo หนึ่ง รายขึ้นไป อย่างต่อเนื่อง (เช่น Hu Ge, Dilraba, Guo Biting) และเขียนข้อมูลผลลัพธ์ลงใน ไฟล์ หรือ ฐานข้อมูล ข้อมูลที่เป็นลายลักษณ์อักษรประกอบด้วยข้อมูลเกือบทั้งหมดของ Weibo ของผู้ใช้ รวมถึงสองประเภท: ข้อมูลผู้ใช้ และ ข้อมูล Weibo เนื่องจากมีเนื้อหามากเกินไป ฉันจะไม่ลงรายละเอียดที่นี่ สำหรับรายละเอียด โปรดดูช่องที่ได้รับ หากคุณต้องการเพียงข้อมูลผู้ใช้ คุณสามารถตั้งค่าฟังก์ชันให้รวบรวมข้อมูลเฉพาะผู้ใช้ Weibo ได้ โปรแกรมนี้จำเป็นต้องตั้งค่าคุกกี้เพื่อเข้าถึง Weibo วิธีรับคุกกี้จะอธิบายในภายหลัง หากคุณไม่ต้องการตั้งค่าคุกกี้ คุณสามารถใช้เวอร์ชันที่ไม่มีคุกกี้ซึ่งมีฟังก์ชันคล้ายกันได้
ผลลัพธ์การรวบรวมข้อมูลสามารถเขียนลงในไฟล์และฐานข้อมูลได้ ประเภทไฟล์การเขียนเฉพาะมีดังนี้:
- ไฟล์ txt (ค่าเริ่มต้น)
- ไฟล์ CSV (ค่าเริ่มต้น)
- ไฟล์ json (ไม่จำเป็น)
- ฐานข้อมูล MySQL (ไม่จำเป็น)
- ฐานข้อมูล MongoDB (ไม่จำเป็น)
- ฐานข้อมูล SQLite (เป็นทางเลือก)
นอกจากนี้ยังรองรับการดาวน์โหลดรูปภาพและวิดีโอจาก Weibo เฉพาะไฟล์ที่ดาวน์โหลดได้มีดังนี้:
- ภาพ ต้นฉบับจาก Weibo ต้นฉบับ (ไม่บังคับ)
- โพสต์ รูปภาพ ต้นฉบับจาก Weibo อีกครั้ง (ไม่บังคับ)
- วิดีโอ ต้นฉบับ บน Weibo (ไม่บังคับ)
- โพสต์ วิดีโอ ซ้ำ บน Weibo (ไม่บังคับ)
- วิดีโอ ใน Weibo Live Photo ดั้งเดิม (เฉพาะเวอร์ชันที่ไม่มีคุกกี้)
- โพสต์ วิดีโอ ใหม่จาก Weibo Live Photo (เฉพาะรุ่นที่ไม่มีคุกกี้)
รายการเนื้อหา
[สารบัญ]
- เว่ยป๋อ แมงมุม
- รายการเนื้อหา
- ฟิลด์ที่ได้รับ
- ข้อมูลผู้ใช้
- ข้อมูลเว่ยป๋อ
- ตัวอย่าง
- สภาพแวดล้อมการทำงาน
- คำแนะนำสำหรับการใช้งาน
- 0.เวอร์ชัน
- 1. โปรแกรมติดตั้ง
- การติดตั้งซอร์สโค้ด
- การติดตั้งปิ๊ป
- 2. การตั้งค่าโปรแกรม
- 3. รันโปรแกรม
- โปรแกรมปรับแต่งส่วนตัว (ไม่จำเป็น)
- รวบรวมข้อมูล Weibo โดยอัตโนมัติเป็นประจำ (ไม่บังคับ)
- วิธีรับคุกกี้
- วิธีรับ user_id
- คำถามที่พบบ่อย
- การวิจัยทางวิชาการ
- โครงการที่เกี่ยวข้อง
- มีส่วนช่วย
- ผู้ร่วมให้ข้อมูล
- สิ่งที่ควรทราบ
ฟิลด์ที่ได้รับ
ส่วนนี้เป็นคำอธิบายของข้อมูลฟิลด์ที่รวบรวมข้อมูล เพื่อแยกความแตกต่างจากเวอร์ชันที่ไม่มีคุกกี้ ข้อมูลที่รวบรวมข้อมูลโดยทั้งสองจะแสดงรายการด้านล่าง หากข้อมูลไม่ซ้ำกับเวอร์ชันที่ไม่มีคุกกี้ ข้อมูลนั้นจะถูกทำเครื่องหมายว่าไม่มีคุกกี้ และข้อมูลที่ไม่ได้ทำเครื่องหมายไว้จะเป็นข้อมูลทั่วไปสำหรับทั้งคู่
ข้อมูลผู้ใช้
- รหัสผู้ใช้: รหัสผู้ใช้ Weibo เช่น "1669879400" อันที่จริง ช่องนี้เป็นช่องที่รู้จัก
- ชื่อเล่น: ชื่อเล่นของผู้ใช้ เช่น "เดียร์-ดิลราบา"
- เพศ: เพศของผู้ใช้ Weibo
- วันเกิด: วันเกิดของผู้ใช้
- ตำแหน่ง: ตำแหน่งของผู้ใช้
- ประสบการณ์การเรียนรู้: ชื่อและเวลาของโรงเรียนเมื่อผู้ใช้เข้าเรียนในโรงเรียน
- ประสบการณ์การทำงาน: ชื่อบริษัทและเวลาของผู้ใช้
- Sunshine Credit (เวอร์ชันปลอดคุกกี้): เครดิต Sunshine ของผู้ใช้
- เวลาลงทะเบียน Weibo (เวอร์ชันปลอดคุกกี้): วันที่ลงทะเบียน Weibo ของผู้ใช้
- จำนวน Weibos: จำนวน Weibos ของผู้ใช้ทั้งหมด (Weibos ที่รีทวีต + Weibos ดั้งเดิม)
- จำนวนผู้ติดตาม: จำนวนโพสต์ Weibo ที่ผู้ใช้ติดตาม
- จำนวนแฟน: จำนวนแฟนของผู้ใช้
- บทนำ: โปรไฟล์ผู้ใช้
- ที่อยู่โฮมเพจ (เวอร์ชันปลอดคุกกี้): URL โฮมเพจเวอร์ชันมือถือ Weibo
- URL อวาตาร์ (เวอร์ชันไม่มีคุกกี้): URL อวาตาร์ของผู้ใช้
- URL อวาตาร์ความละเอียดสูง (เวอร์ชันไม่มีคุกกี้): URL อวาตาร์ความละเอียดสูงของผู้ใช้
- ระดับ Weibo (เวอร์ชันไม่มีคุกกี้): ระดับผู้ใช้ Weibo
- ระดับสมาชิก (เวอร์ชันไม่มีคุกกี้): ระดับผู้ใช้สมาชิก Weibo ระดับสำหรับผู้ใช้ทั่วไปคือ 0
- ไม่ว่าจะตรวจสอบสิทธิ์ (เวอร์ชันที่ไม่มีคุกกี้): ไม่ว่าผู้ใช้จะตรวจสอบสิทธิ์หรือไม่ก็ตาม เป็นประเภทบูลีน
- ประเภทการตรวจสอบสิทธิ์ (เวอร์ชันไม่มีคุกกี้): ประเภทการตรวจสอบสิทธิ์ผู้ใช้ เช่น การตรวจสอบส่วนบุคคล การตรวจสอบสิทธิ์ระดับองค์กร การตรวจสอบสิทธิ์ของรัฐบาล ฯลฯ
- ข้อมูลการตรวจสอบสิทธิ์: เฉพาะสำหรับผู้ใช้ที่ได้รับการตรวจสอบสิทธิ์ ข้อมูลการตรวจสอบสิทธิ์ที่แสดงในคอลัมน์ข้อมูลผู้ใช้
ข้อมูลเว่ยป๋อ
- Weibo id: โลโก้ที่เป็นเอกลักษณ์ของ Weibo
- เนื้อหา Weibo: ข้อความ Weibo
- URL บทความพาดหัว: URL ของบทความพาดหัวใน Weibo หากไม่มีบทความพาดหัวใน Weibo ค่าจะเป็น ''
- URL รูปภาพต้นฉบับ: รูปภาพ Weibo ดั้งเดิมและ URL ของรูปภาพในเหตุผลในการส่งต่อ Weibo หากมีหลายรูปภาพในโพสต์ Weibo แต่ละ URL จะถูกคั่นด้วยเครื่องหมายจุลภาคภาษาอังกฤษ หากไม่มีรูปภาพ ค่าจะเป็น " ไม่มี"
- URL วิดีโอ: URL วิดีโอใน Weibo หากไม่มีวิดีโอใน Weibo ค่าจะเป็น "ไม่มี"
- การโพสต์ตำแหน่งบน Weibo: การโพสต์ตำแหน่งใน Weibo
- เวลาเผยแพร่ Weibo: เวลาที่เผยแพร่ Weibo แม่นยำถึงนาที
- จำนวนไลค์: จำนวนไลค์บน Weibo
- จำนวนการรีทวีต: จำนวนการรีทวีตบน Weibo
- จำนวนความคิดเห็น: จำนวนความคิดเห็นบน Weibo
- เครื่องมือเผยแพร่ Weibo: เครื่องมือเผยแพร่ Weibo เช่น ไคลเอนต์ iPhone, HUAWEI Mate 20 Pro เป็นต้น
- ไฟล์ผลลัพธ์: บันทึกไว้ในโฟลเดอร์ที่ตั้งชื่อตามชื่อเล่นของผู้ใช้ในโฟลเดอร์ weibo ของไดเรกทอรีปัจจุบัน ในรูปแบบของ "user_id.csv" และ "user_id.txt"
- รูปภาพ Weibo: รูปภาพใน Weibo ดั้งเดิมและรูปภาพในการส่งต่อบน Weibo จะถูกบันทึกไว้ในโฟลเดอร์ img ใต้โฟลเดอร์ที่ตั้งชื่อตามชื่อเล่นของผู้ใช้
- วิดีโอ Weibo: วิดีโอต้นฉบับบน Weibo ซึ่งบันทึกไว้ในโฟลเดอร์วิดีโอใต้โฟลเดอร์ที่ตั้งชื่อตามชื่อเล่นของผู้ใช้
- การเสนอราคา Weibo (เวอร์ชันไม่มีคุกกี้): เฉพาะเวอร์ชันที่ไม่มีคุกกี้คือค่าเดียวกับรหัส Weibo ในโปรแกรมนี้
- หัวข้อ (เวอร์ชันปลอดคุกกี้): หัวข้อ Weibo นั่นคือเนื้อหาระหว่างสอง # หากมีหลายหัวข้อ แต่ละ URL จะถูกคั่นด้วยเครื่องหมายจุลภาคภาษาอังกฤษ หากไม่มี ค่าจะเป็น ''
- @user (เวอร์ชันปลอดคุกกี้): ผู้ใช้ Weibo @ หากมีผู้ใช้ @ หลายคน แต่ละ URL จะถูกคั่นด้วยเครื่องหมายจุลภาคภาษาอังกฤษ หากไม่มี ค่าจะเป็น ''
- Weibo ดั้งเดิม (เวอร์ชันปลอดคุกกี้): เฉพาะ Weibo ที่ส่งต่อ มันคือ Weibo ที่ส่งต่อใน Weibo ที่ส่งต่อ มันถูกจัดเก็บไว้ในรูปแบบพจนานุกรมและมีเนื้อหาทั้งหมดในข้อมูล Weibo ข้างต้น เช่น Weibo id เนื้อหา Weibo ฯลฯ .
ตัวอย่าง
หากคุณต้องการทราบผลการทำงานเฉพาะของโปรแกรม คุณสามารถดูเอกสารตัวอย่าง ซึ่งแนะนำตัวอย่างการรวบรวมข้อมูล Weibo ของ Dilireba และแนบภาพหน้าจอบางส่วนของไฟล์ผลลัพธ์
สภาพแวดล้อมการทำงาน
- ภาษาการพัฒนา: python2/python3
- ระบบ: Windows/Linux/macOS
คำแนะนำสำหรับการใช้งาน
0.เวอร์ชัน
โปรแกรมนี้มีสองเวอร์ชัน เวอร์ชันที่คุณเห็นตอนนี้คือเวอร์ชัน python3 และอีกเวอร์ชันคือเวอร์ชัน python2 อยู่ในสาขา python2 ปัจจุบัน เรากำลังพัฒนาเวอร์ชัน python3 เป็นหลัก รวมถึงการพัฒนาฟีเจอร์ใหม่และการแก้ไขข้อบกพร่อง เวอร์ชัน python2 รองรับเฉพาะการแก้ไขข้อบกพร่องเท่านั้น ขอแนะนำให้ผู้ใช้ python3 ใช้เวอร์ชันปัจจุบัน และผู้ใช้ python2 แนะนำให้ใช้เวอร์ชัน python2
1. โปรแกรมติดตั้ง
โปรแกรมนี้มีวิธีการติดตั้งสองวิธี วิธีแรกคือ การติดตั้งซอร์สโค้ด และอีกวิธีคือ การติดตั้ง pip ซึ่งทั้งสองวิธีมีฟังก์ชันที่เหมือนกันทุกประการ หากคุณต้องการแก้ไขซอร์สโค้ด ขอแนะนำให้ใช้วิธีแรก มิฉะนั้น คุณสามารถเลือกวิธีการติดตั้งใดก็ได้
การติดตั้งซอร์สโค้ด
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
การติดตั้งปิ๊ป
$ python3 -m pip install weibo-spider
2. การตั้งค่าโปรแกรม
หากต้องการเรียนรู้เกี่ยวกับการตั้งค่าโปรแกรม โปรดดูเอกสารประกอบการตั้งค่าโปรแกรม
3. รันโปรแกรม
ผู้ใช้ที่ ติดตั้งซอร์สโค้ด สามารถเรียกใช้คำสั่งต่อไปนี้ในไดเร็กทอรี weiboSpider ผู้ใช้ที่ ติดตั้ง pip สามารถรันคำสั่งต่อไปนี้ในไดเร็กทอรีใดก็ได้ที่มีสิทธิ์ในการเขียน
$ python3 -m weibo_spider
เมื่อดำเนินการเป็นครั้งแรก ไฟล์การกำหนดค่า config.json จะถูกสร้างขึ้นโดยอัตโนมัติในไดเร็กทอรีปัจจุบัน หลังจากกำหนดค่า ให้ดำเนินการคำสั่งเดียวกันเพื่อรับ Weibo
หากคุณมีไฟล์ config.json อยู่แล้ว คุณยังสามารถกำหนดค่าพาธ config.json ผ่านพารามิเตอร์ config_path และรันโปรแกรมได้ บรรทัดคำสั่งจะเป็นดังนี้:
$ python3 -m weibo_spider --config_path= " config.json "
หากคุณต้องการระบุเส้นทางการบันทึกไฟล์ (csv, txt, json, รูปภาพ, วิดีโอ) คุณสามารถตั้งค่าผ่านพารามิเตอร์ output_dir หากคุณต้องการบันทึกไฟล์ลงในไดเร็กทอรี /home/weibo/ คุณสามารถเรียกใช้คำสั่งต่อไปนี้:
$ python3 -m weibo_spider --output_dir= " /home/weibo/ "
หากคุณต้องการป้อน user_id ผ่านบรรทัดคำสั่ง คุณสามารถใช้พารามิเตอร์ u ได้ คุณสามารถป้อน user_id แต่ละรายการได้โดยคั่นด้วยเครื่องหมายจุลภาค หากมี user_id ซ้ำกัน โปรแกรมจะลบรายการที่ซ้ำกันออกโดยอัตโนมัติ บรรทัดคำสั่งมีดังนี้:
$ python3 -m weibo_spider --u= " 1669879400,1223178222 "
โปรแกรมจะรับผู้ใช้ Weibo ที่มี user_id เป็น 1669879400 และ 1223178222 เราจะอธิบายวิธีการรับ user_id ในภายหลัง user_id ทั้งหมดในเมธอดนี้ได้รับการตั้งค่าโดยใช้ Since_date และ end_date ใน config.json และสามารถควบคุมช่วงเวลาในการรวบรวมข้อมูลได้โดยการแก้ไขค่า หาก user_id_list ใน config.json เป็นพาธของไฟล์ user_id ในแต่ละบรรทัดคำสั่งจะถูกบันทึกในไฟล์โดยอัตโนมัติและอัปเดตตั้งแต่นั้นมาโดยอัตโนมัติ หากไม่ใช่พาธ user_id จะถูกบันทึกใน user_id_list.txt ในไดเร็กทอรีปัจจุบัน และอัพเดตอัตโนมัติตั้งแต่ หากไม่มี user_id_list.txt ในไดเร็กทอรีปัจจุบัน โปรแกรมจะสร้างมันขึ้นมาโดยอัตโนมัติ
โปรแกรมปรับแต่งส่วนตัว (ไม่จำเป็น)
ส่วนนี้เป็นทางเลือกและสามารถละเว้นได้ หากคุณไม่จำเป็นต้องปรับแต่งโปรแกรมหรือเพิ่มคุณสมบัติใหม่
รหัสหลักของโปรแกรมนี้อยู่ในไฟล์ weibo_spider.py ส่วนหลักของโปรแกรมคือคลาส Spider ฟังก์ชั่นข้างต้นทั้งหมดถูกนำไปใช้โดยการเรียกคลาส Spider ในฟังก์ชั่นหลัก รหัสการโทรเริ่มต้นมีดังนี้:
config = get_config ()
wb = Spider ( config )
wb . start () # 爬取微博信息
ผู้ใช้สามารถเรียกหรือแก้ไขคลาส Spider ได้ตามความต้องการของตนเอง เมื่อรันโปรแกรมนี้เราจะสามารถได้รับข้อมูลมากมาย
คลิกเพื่อดูรายละเอียด
- wb.user['ชื่อเล่น']: ชื่อเล่นของผู้ใช้;
- wb.user['gender']: เพศของผู้ใช้;
- wb.user['location']: ตำแหน่งของผู้ใช้;
- wb.user['birthday']: วันเกิดของผู้ใช้;
- wb.user['คำอธิบาย']: โปรไฟล์ผู้ใช้;
- wb.user['verified_reason']: การรับรองความถูกต้องของผู้ใช้;
- wb.user['พรสวรรค์']: ป้ายกำกับผู้ใช้;
- wb.user['education']: ประสบการณ์การเรียนรู้ของผู้ใช้;
- wb.user['work']: ประสบการณ์การทำงานของผู้ใช้;
- wb.user['weibo_num']: หมายเลข Weibo;
- wb.user['กำลังติดตาม']: จำนวนสิ่งต่อไปนี้;
- wb.user['ผู้ติดตาม']: จำนวนแฟน;
wb.weibo : ยกเว้นข้อมูลข้างต้น wb.weibo มีข้อมูล Weibo ที่รวบรวมข้อมูลทั้งหมด เช่น Weibo id ข้อความ Weibo URL รูปภาพ ต้นฉบับ สถานที่เผยแพร่ เวลาในการเผยแพร่ เครื่องมือเผยแพร่ จำนวนไลค์ จำนวนรีทวีต จำนวน ความคิดเห็น ฯลฯ หากคุณกำลังรวบรวมข้อมูล Weibo ทั้งหมด (ต้นฉบับ + ส่งต่อ) นอกเหนือจากข้อมูลข้างต้นแล้ว ยังรวมถึง URL ของรูปภาพต้นฉบับของ Weibo ที่ส่งต่อ ไม่ว่าจะเป็น Weibo ดั้งเดิม ฯลฯ wb.weibo คือรายการที่มีข้อมูล Weibo ที่รวบรวมข้อมูลทั้งหมด wb.weibo[0] เป็น Weibo ตัวแรกที่รวบรวมข้อมูล wb.weibo[1] เป็น Weibo ตัวแรกที่รวบรวมข้อมูล และอื่นๆ เมื่อ filter=1 wb.weibo[0] จะเป็น Weibo ดั้งเดิม ตัวแรกที่รวบรวมข้อมูล และต่อๆ ไป wb.weibo[0]['id'] คือรหัสของ Weibo แรก, wb.weibo[0]['content'] คือข้อความของ Weibo แรก, wb.weibo[0]['publish_time' ] คือ เวลาเผยแพร่โพสต์ Weibo แรก และมีข้อมูลอื่น ๆ อีกมากมายที่ฉันจะไม่ลงรายละเอียด คุณสามารถคลิก "รายละเอียด" ด้านล่างเพื่อดูการใช้งานเฉพาะ
รายละเอียด
หากผู้ใช้ Weibo เป้าหมายมีอยู่บน Weibo ดังนั้น:
- id: เก็บ Weibo ID ตัวอย่างเช่น wb.weibo[0]['id'] คือรหัสของ Weibo ล่าสุด
- เนื้อหา: เก็บข้อความหลักของ Weibo ตัวอย่างเช่น wb.weibo[0]['content'] คือข้อความของโพสต์ Weibo ล่าสุด
- article_url: เก็บ URL ของบทความพาดหัวใน Weibo ตัวอย่างเช่น wb.weibo[0]['article_url'] คือ URL ของบทความพาดหัว Weibo ล่าสุด หากไม่มีบทความพาดหัวใน Weibo ค่าจะเป็น '';
- original_pictures: เก็บ URL รูปภาพดั้งเดิมของ Weibo ดั้งเดิมและ URL รูปภาพในเหตุผลในการส่งต่อ Weibo ตัวอย่างเช่น wb.weibo[0]['Original_pictures'] คือ URL รูปภาพดั้งเดิมของ Weibo ล่าสุด หาก Weibo มีหลายรูปภาพ URL หลายรายการจะถูกจัดเก็บ โดยคั่นด้วยเครื่องหมายจุลภาคภาษาอังกฤษ หาก Weibo ไม่มีรูปภาพ ค่าคือ "ไม่มี";
- retweet_pictures: เก็บ URL รูปภาพต้นฉบับไว้ใน Weibo ที่รีทวีต เมื่อ Weibo ล่าสุดเป็น Weibo ดั้งเดิมหรือ Weibo ที่ส่งต่อโดยไม่มีรูปภาพ ค่าจะเป็น "ไม่มี" มิฉะนั้นจะเป็น URL รูปภาพของ Weibo ที่ส่งต่อ หากมีรูปภาพหลายรูป URL หลายรายการจะถูกจัดเก็บโดยคั่นด้วยเครื่องหมายจุลภาค
- publish_place: เก็บตำแหน่งการเผยแพร่ของ Weibo ตัวอย่างเช่น wb.weibo[0]['publish_place'] เป็นสถานที่เผยแพร่ของ Weibo ล่าสุด หาก Weibo ไม่มีข้อมูลตำแหน่ง ค่าจะเป็น "ไม่มี"
- publish_time: เก็บเวลาการเผยแพร่ของ Weibo ตัวอย่างเช่น wb.weibo[0]['publish_time'] คือเวลาเผยแพร่ของ Weibo ล่าสุด
- up_num: เก็บจำนวนไลค์ที่ได้รับจาก Weibo ตัวอย่างเช่น wb.weibo[0]['up_num'] คือจำนวนการถูกใจที่ได้รับจากโพสต์ Weibo ล่าสุด
- retweet_num: เก็บจำนวนการรีทวีตที่ได้รับจาก Weibo ตัวอย่างเช่น wb.weibo[0]['retweet_num'] คือจำนวนการรีทวีตที่ Weibo ล่าสุดได้รับ
- comment_num: เก็บจำนวนความคิดเห็นที่ได้รับจาก Weibo ตัวอย่างเช่น wb.weibo[0]['comment_num'] คือจำนวนความคิดเห็นที่ได้รับจาก Weibo ล่าสุด
- publish_tool: เครื่องมือเผยแพร่พื้นที่เก็บข้อมูลสำหรับ Weibo ตัวอย่างเช่น wb.weibo[0]['publish_tool'] เป็นเครื่องมือเผยแพร่สำหรับ Weibo ล่าสุด
รวบรวมข้อมูล Weibo โดยอัตโนมัติเป็นประจำ (ไม่บังคับ)
หากคุณต้องการให้โปรแกรมรวบรวมข้อมูลโดยอัตโนมัติทุกช่วงเวลา และเนื้อหาที่รวบรวมข้อมูลเป็นเนื้อหาที่เพิ่มใหม่ (ไม่รวม Weibo ที่ได้รับแล้ว) โปรดตรวจสอบ รวบรวมข้อมูล Weibo โดยอัตโนมัติเป็นประจำ
วิธีรับคุกกี้
หากต้องการเรียนรู้วิธีรับคุกกี้ โปรดดูเอกสารประกอบเกี่ยวกับคุกกี้
วิธีรับ user_id
หากต้องการเรียนรู้วิธีรับ user_id โปรดดูเอกสาร user_id ซึ่งอธิบายวิธีการรับ user_id ของผู้ใช้ Weibo หนึ่งคนขึ้นไป
คำถามที่พบบ่อย
หากเกิดข้อผิดพลาดขณะรันโปรแกรม คุณสามารถดูหน้าคำถามที่พบบ่อยซึ่งรวบรวมปัญหาและแนวทางแก้ไขที่พบบ่อยที่สุด หากข้อผิดพลาดที่เกิดขึ้นไม่อยู่ในคำถามที่พบบ่อย คุณสามารถขอความช่วยเหลือได้โดยการส่งปัญหาและเรายินดีที่จะตอบให้คุณ
การวิจัยทางวิชาการ
โครงการนี้ได้รับข้อมูล Weibo เพื่อให้ข้อมูลที่จำเป็นสำหรับโครงการที่ไม่ใช่เชิงพาณิชย์ เช่น การเขียนรายงานและการทำวิจัย เอกสารงานวิจัยทางวิชาการคือโครงการที่มีการนำไปใช้ในวิทยานิพนธ์หรือการวิจัย ฯลฯ และจัดแสดงโดยได้รับอนุญาตจากเจ้าของ เราได้สื่อสารกับเจ้าของเกี่ยวกับคำอธิบายที่เกี่ยวข้องกับความเป็นส่วนตัว และคำอธิบายจะแนะนำเฉพาะส่วนที่เจ้าของอนุญาตให้แสดงเท่านั้น หากเจ้าของข้อมูลบางส่วนก่อนหน้านี้ยินยอมให้แสดงและเขียนไว้ในเอกสารแล้ว แต่ตอนนี้ไม่ต้องการแสดงสามารถแจ้งได้ทางอีเมล์ ([email protected]) หรือฉบับแล้วผมจะลบข้อมูลที่เกี่ยวข้องออก ข้อมูล. ในขณะเดียวกันเพื่อน ๆ ที่ใช้โครงการนี้ในการเขียนรายงานหรือทำวิจัยเชิงวิชาการอื่น ๆ ก็ยินดีที่จะแสดงผลงานวิจัยของตนในเอกสารการวิจัยเชิงวิชาการด้วย ทั้งนี้เป็นความสมัครใจโดยสมบูรณ์
เพื่อความสะดวกของคุณ รายการ bibtex สำหรับโปรเจ็กต์นี้มีดังต่อไปนี้:
@misc{weibospider2020,
author = {Lei Chen, Zhengyang Song, schaepher, minami9, bluerthanever, MKSP2015, moqimoqidea, windlively, eggachecat, mtuwei, codermino, duangan1},
title = {{Weibo Spider}},
howpublished = {url{https://github.com/dataabc/weiboSpider}},
year = {2020}
}
โครงการที่เกี่ยวข้อง
- weibo-crawler - ฟังก์ชั่นนี้เหมือนกับโปรเจ็กต์นี้ทุกประการ คุณไม่สามารถเพิ่มคุกกี้ และรับแอตทริบิวต์ Weibo เพิ่มเติมได้
- การค้นหา weibo - สามารถรับผล การค้นหาคำหลัก Weibo อย่างน้อยหนึ่งรายการอย่างต่อเนื่องและเขียนผลลัพธ์ลงในไฟล์ (ไม่บังคับ) ฐานข้อมูล (ไม่บังคับ) ฯลฯ การค้นหาคำหลัก Weibo ที่เรียกว่าหมายถึง: การค้นหา Weibo ที่มีคำหลักที่ระบุในข้อความ และคุณสามารถระบุช่วงเวลาการค้นหาได้ สำหรับคำหลักยอดนิยม สามารถรับผลการค้นหามากกว่า 10 ล้านรายการ ในหนึ่งวัน และผลการค้นหา 10 ล้าน XN สามารถรับได้ภายใน N วัน สำหรับคำหลักส่วนใหญ่ จำนวนไมโครบล็อกที่เกี่ยวข้องที่สร้างขึ้นในหนึ่งวันควรน้อยกว่า 10 ล้าน ดังนั้นจึงอาจกล่าวได้ว่าโปรแกรมสามารถรับผลการค้นหาทั้งหมดหรือเกือบทั้งหมดสำหรับคำหลักส่วนใหญ่ นอกจากนี้โปรแกรมนี้สามารถรับข้อมูลทั้งหมดของผลการค้นหาและข้อมูล Weibo ที่ได้รับจากโปรแกรมนี้สามารถรับได้จากโปรแกรมนี้
มีส่วนช่วย
ยินดีที่ได้มีส่วนร่วมในโครงการนี้ การสนับสนุนสามารถทำได้โดยการส่งโค้ด ให้คำแนะนำ (เช่น คุณสมบัติใหม่ แผนการปรับปรุง ฯลฯ) ผ่านประเด็นต่างๆ หรือแจ้งให้เราทราบเกี่ยวกับจุดบกพร่อง ข้อบกพร่อง ฯลฯ ในโครงการผ่านประเด็นต่างๆ สำหรับวิธีการเฉพาะในการสนับสนุน โปรดดูที่การมีส่วนร่วมในเรื่องนี้ โครงการ.
ผู้ร่วมให้ข้อมูล
ขอขอบคุณเพื่อน ๆ ทุกคนที่มีส่วนร่วมในโครงการนี้ โปรดดูหน้าผู้ร่วมให้ข้อมูลสำหรับรายละเอียดของผู้ร่วมให้ข้อมูล
สิ่งที่ควรทราบ
- user_id ไม่สามารถเป็น user_id ของโปรแกรมรวบรวมข้อมูล Weibo เนื่องจากเพื่อที่จะรวบรวมข้อมูล Weibo คุณต้องลงชื่อเข้าใช้บัญชี Weibo ก่อน ให้เราเรียกโปรแกรมรวบรวมข้อมูลบัญชีนี้ว่า Weibo เมื่อโปรแกรมรวบรวมข้อมูล Weibo เยี่ยมชมหน้าของตัวเองและเยี่ยมชมหน้าของผู้ใช้รายอื่น รูปแบบของหน้าเว็บที่ได้รับจะแตกต่างออกไป ดังนั้นจึงไม่สามารถรวบรวมข้อมูล Weibo ของตัวเองได้ หากคุณต้องการรวบรวมข้อมูลเนื้อหา Weibo คุณสามารถอ้างถึงการได้รับ Weibo ของคุณเอง ข้อมูล;
- คุกกี้มีวันหมดอายุที่จำกัดประมาณสามเดือน หากระบบแจ้งว่าคุกกี้ไม่ถูกต้องหรือหมดอายุแล้ว คุณจะต้องอัปเดตคุกกี้อีกครั้ง