Da die mobile Webversion den Crawlern keine allzu großen Einschränkungen auferlegt, können einige Weibo-Suchdaten direkt gecrawlt werden. Die Such-API lautet wie folgt:
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
Basierend auf dieser API kann eine bestimmte Menge an JSON-Daten abgerufen werden (siehe sample.json für die Originaldaten). Nach der Verarbeitung ist das Format wie folgt:
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
Detaillierte Crawler finden Sie unter weibo_search.py.
Word Cloud kann mit Wordcloud implementiert werden. Die grundlegenden Schritte sind:
Wortsegmentierung und Schlüsselwortextraktion: Chinesischer Text erfordert eine Wortsegmentierung und die Entfernung einer großen Anzahl von Stoppwörtern, wie z. B. (Sie, ich, er, dies), um die generierte Wortwolke aussagekräftiger zu machen. Dieser Schritt kann direkt mit der TF-IDF-Schlüsselwortextraktion des Jieba-Wortsegmentierers durchgeführt werden.
Was an Wordcloud übergeben wird, ist eine Zeichenfolge und ein zugrunde liegendes Bild. Verketten Sie die im ersten Schritt erhaltenen Schlüsselwörter mit Leerzeichen. Versuchen Sie, ein weißes Hintergrundbild zu wählen, damit das generierte Bild näher an dem liegt Originalbild.
Codedetails finden Sie unter weibo_cloud.py.
Schlüsselwörter: iPhone
Schlüsselwörter: Microsoft
Schlüsselwörter: Google