weibo_wordcloud ดาวน์โหลด - weibo_wordcloud ดาวน์โหลดซอร์สโค้ด

weibo_wordcloud

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

โปรแกรมรวบรวมข้อมูล Weibo และการแสดงคำบนคลาวด์

สิ่งแวดล้อม

หลาม 3
คำขอ
เจียบะ
matplotlib
เวิร์ดคลาวด์
เผ็ดร้อน

สัตว์เลื้อยคลาน

เนื่องจากเวอร์ชันเว็บบนมือถือไม่ได้กำหนดข้อจำกัดมากเกินไปสำหรับโปรแกรมรวบรวมข้อมูล จึงสามารถรวบรวมข้อมูลการค้นหา Weibo บางส่วนได้โดยตรง API การค้นหามีดังนี้:

 https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}

ตาม API นี้ สามารถรับข้อมูล JSON จำนวนหนึ่งได้ (ดูตัวอย่าง json สำหรับข้อมูลต้นฉบับ) หลังจากประมวลผล รูปแบบจะเป็นดังนี้:

{
    "mid" : " 4199434918992223 " ,
    "text" : " 【深度学习的终极形态】近期，院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告，分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”，让软件发挥灵活性，硬件发挥高效率。我们整理了本次报告的重点，希望能对大家有所帮助！  ...全文" ,
    "userid" : " 1286528122 " ,
    "username" : "微软亚洲研究院" ,
    "reposts_count" : 21 ,
    "comments_count" : 1 ,
    "attitudes_count" : 9
}

สำหรับโปรแกรมรวบรวมข้อมูลโดยละเอียด โปรดดู weibo_search.py

เมฆคำ

Word cloud สามารถนำไปใช้งานได้โดยใช้ wordcloud ขั้นตอนพื้นฐานคือ:

การแบ่งส่วนคำและการแยกคำหลัก: ข้อความภาษาจีนจำเป็นต้องมีการแบ่งส่วนคำและลบคำหยุดจำนวนมาก เช่น (คุณ ฉัน เขา นี้) เพื่อทำให้คำว่า cloud ที่สร้างขึ้นมีความหมายมากขึ้น ขั้นตอนนี้สามารถดำเนินการได้โดยตรงโดยใช้การแยกคำหลัก TF-IDF ของตัวแบ่งคำ jieba
สิ่งที่ส่งผ่านไปยัง wordcloud คือสตริงและรูปภาพที่อยู่ด้านล่าง เชื่อมต่อคำหลักที่ได้รับในขั้นตอนแรกด้วยการเว้นวรรค สำหรับการเลือกรูปภาพที่อยู่ด้านล่าง ให้ลองเลือกรูปภาพพื้นหลังสีขาว เพื่อให้รูปภาพที่สร้างขึ้นอยู่ใกล้กับรูปภาพมากขึ้น รูปภาพต้นฉบับ

ดู weibo_cloud.py สำหรับรายละเอียดรหัส