Weibo_Hot_Search
1.0.0
인터넷에 사람들의 기억력은 7초밖에 없다고 하는데 저는 이 7초의 기억력을 기록하고 싶습니다.
프로젝트는 서버에 배포되었으며 매일 오전 11시와 오후 11시에 정기적으로 Weibo의 핫 검색 목록을 크롤링하고 Markdown 파일 형식으로 저장한 다음 GitHub에 업로드하고 백업할 수 있습니다. .
왜 11의 두 시점을 선택했는지 묻지 마세요. 왜냐하면 저는 항상 이 두 시점 즈음에 큰 사건이 일어날 것이라고 느끼기 때문입니다.
웨이보에서 가장 핫한 검색어가 가정사, 국정, 세계사, 연예계 가십 등 무엇이든 충실하게 기록하고 싶을 뿐입니다...
파이썬 3.0+
pip install requests
pip install lxml
pip install bs4
또는 실행
pip install -r requirements.txt
설치 및 작동에 필요한 환경
weibo_Hot_Search_bs4.py
(신규) 또는 weibo_Hot_Search.py
실행하세요.python weibo_Hot_Search_bs4.py
(신규) 또는 python weibo_Hot_Search.py
실행실행 후 현재 폴더에 다음과 같이 time이라는 이름의 폴더가 생성됩니다.
2019年11月08日
(업데이트됨) 및 특정 시간의 특정 시간으로 이름이 지정된 Markdown 파일이 다음과 같이 생성됩니다.
2019年11月08日15点.md
(계속 업데이트) 다음과 같이 특정 시간, 특정 시간이라는 이름의 csv 파일이 생성됩니다.
2020年08月27日00点.csv
Sina Weibo의 공개 핫 검색 목록 링크가 사용됩니다: https://s.weibo.com/top/summary/
이 프로젝트의 모든 데이터 소스는 Sina Weibo에서 제공됩니다. 데이터 콘텐츠 및 해석 권한은 Sina Weibo에 있습니다.
weibo_Hot_Search_bs4.py
를 추가했습니다../bs4版数据/
디렉터리에 저장됩니다. 저장 데이터 형식은序号-标题-热度(或置顶)
입니다. 이 형식은 처리하기 쉽고 후속 데이터 시각화 및 기타 분석을 용이하게 합니다..csv
파일은 bs4[.csv]版数据
폴더에 저장됩니다. bs4[txt]版数据
및 lxml版数据
모두 중지되었습니다. 새로운 데이터는 bs4[.csv]
버전 데이터 파일에 저장됩니다.GNU 일반 공중 라이선스 v3.0