เนื่องจากเวอร์ชันเว็บบนมือถือไม่ได้กำหนดข้อจำกัดมากเกินไปสำหรับโปรแกรมรวบรวมข้อมูล จึงสามารถรวบรวมข้อมูลการค้นหา Weibo บางส่วนได้โดยตรง API การค้นหามีดังนี้:
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
ตาม API นี้ สามารถรับข้อมูล JSON จำนวนหนึ่งได้ (ดูตัวอย่าง json สำหรับข้อมูลต้นฉบับ) หลังจากประมวลผล รูปแบบจะเป็นดังนี้:
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
สำหรับโปรแกรมรวบรวมข้อมูลโดยละเอียด โปรดดู weibo_search.py
Word cloud สามารถนำไปใช้งานได้โดยใช้ wordcloud ขั้นตอนพื้นฐานคือ:
การแบ่งส่วนคำและการแยกคำหลัก: ข้อความภาษาจีนจำเป็นต้องมีการแบ่งส่วนคำและลบคำหยุดจำนวนมาก เช่น (คุณ ฉัน เขา นี้) เพื่อทำให้คำว่า cloud ที่สร้างขึ้นมีความหมายมากขึ้น ขั้นตอนนี้สามารถดำเนินการได้โดยตรงโดยใช้การแยกคำหลัก TF-IDF ของตัวแบ่งคำ jieba
สิ่งที่ส่งผ่านไปยัง wordcloud คือสตริงและรูปภาพที่อยู่ด้านล่าง เชื่อมต่อคำหลักที่ได้รับในขั้นตอนแรกด้วยการเว้นวรรค สำหรับการเลือกรูปภาพที่อยู่ด้านล่าง ให้ลองเลือกรูปภาพพื้นหลังสีขาว เพื่อให้รูปภาพที่สร้างขึ้นอยู่ใกล้กับรูปภาพมากขึ้น รูปภาพต้นฉบับ
ดู weibo_cloud.py สำหรับรายละเอียดรหัส
คำสำคัญ: ไอโฟน
คำสำคัญ: ไมโครซอฟต์
คำสำคัญ: กูเกิล