Dado que la versión web móvil no impone demasiadas restricciones a los rastreadores, puede rastrear directamente algunos datos de búsqueda de Weibo. La API de búsqueda es la siguiente:
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
Según esta API, se puede obtener una cierta cantidad de datos JSON (consulte sample.json para conocer los datos originales Después del procesamiento, el formato es el siguiente:
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
Para conocer los rastreadores detallados, consulte weibo_search.py.
La nube de palabras se puede implementar usando wordcloud. Los pasos básicos son:
Segmentación de palabras y extracción de palabras clave: el texto chino requiere la segmentación de palabras y la eliminación de una gran cantidad de palabras vacías, como (tú, yo, él, esto), para que la nube de palabras generada sea más significativa. Este paso se puede completar directamente utilizando la extracción de palabras clave TF-IDF del segmentador de palabras jieba.
Lo que se pasa a wordcloud es una cadena y una imagen subyacente. Concatene las palabras clave obtenidas en el primer paso con espacios. Para la selección de la imagen subyacente, intente elegir una imagen de fondo blanca, para que la imagen generada esté más cerca de la. imagen original.
Consulte weibo_cloud.py para obtener detalles del código.
Palabras clave: iPhone
Palabras clave: Microsoft
Palabras clave: Google