Karena versi web seluler tidak menerapkan terlalu banyak batasan pada perayap, versi ini dapat langsung merayapi beberapa data pencarian Weibo. API pencariannya adalah sebagai berikut:
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
Berdasarkan API ini, sejumlah data JSON dapat diperoleh (lihat sample.json untuk data aslinya).
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
Untuk perayap terperinci, lihat weibo_search.py.
Word cloud dapat diimplementasikan menggunakan wordcloud. Langkah dasarnya adalah:
Segmentasi kata dan ekstraksi kata kunci: Teks berbahasa Mandarin memerlukan segmentasi kata dan penghapusan sejumlah besar kata-kata penghenti, seperti (Anda, saya, dia, ini), untuk membuat kata cloud yang dihasilkan lebih bermakna. Langkah ini dapat diselesaikan secara langsung menggunakan ekstraksi kata kunci TF-IDF dari segmenter kata jieba.
Yang diteruskan ke wordcloud adalah string dan gambar yang mendasarinya. Gabungkan kata kunci yang diperoleh pada langkah pertama dengan spasi asli.gambar.
Lihat weibo_cloud.py untuk detail kode.
Kata kunci: iPhone
Kata Kunci: Microsoft
Kata Kunci: Google