نظرًا لأن إصدار الويب للجوال لا يفرض الكثير من القيود على برامج الزحف، فيمكنه الزحف مباشرة إلى بعض بيانات بحث Weibo. واجهة برمجة تطبيقات البحث هي كما يلي:
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
بناءً على واجهة برمجة التطبيقات هذه، يمكن الحصول على كمية معينة من بيانات JSON (راجع نموذج json للبيانات الأصلية، بعد المعالجة، يكون التنسيق كما يلي:
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
للحصول على برامج الزحف التفصيلية، راجع weibo_search.py.
يمكن تنفيذ Word cloud باستخدام wordcloud والخطوات الأساسية هي:
تجزئة الكلمات واستخراج الكلمات الرئيسية: يتطلب النص الصيني تجزئة الكلمات وإزالة عدد كبير من كلمات التوقف، مثل (أنت، أنا، هو، هذا)، وذلك لجعل سحابة الكلمات التي تم إنشاؤها ذات معنى أكبر. يمكن إكمال هذه الخطوة مباشرةً باستخدام استخراج الكلمات الأساسية TF-IDF لمقطع الكلمات jieba.
ما يتم تمريره إلى wordcloud هو سلسلة وصورة أساسية لربط الكلمات الرئيسية التي تم الحصول عليها في الخطوة الأولى بمسافات لاختيار الصورة الأساسية، حاول اختيار صورة ذات خلفية بيضاء، بحيث تكون الصورة التي تم إنشاؤها أقرب إلى الصورة الصورة الأصلية.
راجع weibo_cloud.py للحصول على تفاصيل الرمز.
الكلمات المفتاحية: ايفون
الكلمات المفتاحية: مايكروسوفت
الكلمات المفتاحية: جوجل