weibo_wordcloud 다운로드 - weibo_wordcloud 소스 코드 다운로드

weibo_wordcloud

기타 소스코드

1.0.0

다운로드

Weibo 크롤러 및 단어 클라우드 디스플레이

환경

파이썬 3
요청
지에바
matplotlib
단어 구름
사이피

비열한

모바일 웹 버전은 크롤러에 많은 제한을 두지 않기 때문에 일부 웨이보 검색 데이터를 직접 크롤링할 수 있습니다. 검색 API는 다음과 같습니다.

 https://m.weibo.cn/api/container/getIndex?type=wb&queryVal={}&containerid=100103type=2%26q%3D{}&page={}

이 API를 기반으로 일정량의 JSON 데이터를 얻을 수 있습니다(원본 데이터는 Sample.json 참조). 처리 후 형식은 다음과 같습니다.

{
    "mid" : " 4199434918992223 " ,
    "text" : " 【深度学习的终极形态】近期，院友袁进辉博士回到微软亚洲研究院做了题为《打造最强深度学习引擎》的报告，分享了深度学习框架方面的技术进展。他在报告中启发大家思考如何才能“鱼和熊掌兼得”，让软件发挥灵活性，硬件发挥高效率。我们整理了本次报告的重点，希望能对大家有所帮助！  ...全文" ,
    "userid" : " 1286528122 " ,
    "username" : "微软亚洲研究院" ,
    "reposts_count" : 21 ,
    "comments_count" : 1 ,
    "attitudes_count" : 9
}

자세한 크롤러는 weibo_search.py를 참조하세요.

단어 구름

Wordcloud를 사용하여 Word Cloud를 구현할 수 있습니다. 기본 단계는 다음과 같습니다.

단어 분할 및 키워드 추출: 중국어 텍스트는 생성된 단어 구름을 더욱 의미있게 만들기 위해 단어 분할과 (너, 나, 그, 이)와 같은 많은 불용어를 제거해야 합니다. 이 단계는 jieba 단어 분할기의 TF-IDF 키워드 추출을 사용하여 직접 완료할 수 있습니다.
워드클라우드에 전달되는 것은 문자열과 기본 이미지입니다. 첫 번째 단계에서 얻은 키워드를 공백으로 연결합니다. 기본 이미지를 선택하려면 생성된 이미지에 더 가깝도록 흰색 배경 이미지를 선택하십시오. 원본.

코드 세부정보는 weibo_cloud.py를 참조하세요.