weibo_wordcloud
1.0.0
모바일 웹 버전은 크롤러에 많은 제한을 두지 않기 때문에 일부 웨이보 검색 데이터를 직접 크롤링할 수 있습니다. 검색 API는 다음과 같습니다.
https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}
이 API를 기반으로 일정량의 JSON 데이터를 얻을 수 있습니다(원본 데이터는 Sample.json 참조). 처리 후 형식은 다음과 같습니다.
{
"mid" : " 4199434918992223 " ,
"text" : " 【深度学习的终极形态】近期,院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告,分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”,让软件发挥灵活性,硬件发挥高效率。我们整理了本次报告的重点,希望能对大家有所帮助! ...全文" ,
"userid" : " 1286528122 " ,
"username" : "微软亚洲研究院" ,
"reposts_count" : 21 ,
"comments_count" : 1 ,
"attitudes_count" : 9
}
자세한 크롤러는 weibo_search.py를 참조하세요.
Wordcloud를 사용하여 Word Cloud를 구현할 수 있습니다. 기본 단계는 다음과 같습니다.
단어 분할 및 키워드 추출: 중국어 텍스트는 생성된 단어 구름을 더욱 의미있게 만들기 위해 단어 분할과 (너, 나, 그, 이)와 같은 많은 불용어를 제거해야 합니다. 이 단계는 jieba 단어 분할기의 TF-IDF 키워드 추출을 사용하여 직접 완료할 수 있습니다.
워드클라우드에 전달되는 것은 문자열과 기본 이미지입니다. 첫 번째 단계에서 얻은 키워드를 공백으로 연결합니다. 기본 이미지를 선택하려면 생성된 이미지에 더 가깝도록 흰색 배경 이미지를 선택하십시오. 원본.
코드 세부정보는 weibo_cloud.py를 참조하세요.
키워드: 아이폰
키워드: 마이크로소프트
키워드: 구글