키워드 별 Sina Weibo 검색을위한 웹 스크레이퍼입니다.
Sina Weibo 스크레이퍼가 있습니다. 그러나 그들은 모두 Weibo API와 함께 구현됩니다. Sina Weibo는 API를 사용하는 경우 매 시간, 일 및 월마다 얻을 수있는 데이터의 양을 제한합니다. 이것은 순수 URL 인코딩에서 구현 한 키워드로 Sina Weibo 검색을위한 웹 스크레이퍼로 실제 브라우저를 시뮬레이션하고 페이지를 탐색하고 데이터에 액세스 할 수 있도록합니다. 한계를 제거합니다. Weibo를 사용하면 귀하가 기계가 아니라는 것을 증명하기 위해 검증 코드를 입력 할 수 있지만 종종 그렇지 않습니다.
Xuzhou Yin. 개인 웹 사이트 : www.xuzhouyin.com
터미널을 열고 프로그램을 저장하려는 디렉토리로 이동 한 다음 git clone address
입력하여 프로그램을 다운로드하십시오.
pip install selenium
입력하십시오pip install time
입력하십시오pip install bs4
입력하십시오pip install urllib
입력하십시오pip install datetime
입력하십시오pip install unicodecsv
Sina Weibo Limits 사용자 만 로그인 한 검색 기능의 허가는 고급 검색 (예 : 특정 기간이있는 검색)을 사용할 수 있습니다. 따라서 Sina Weibo 계정에 등록하고 Firefox 브라우저를 통해 로그인하십시오 (따라서 Firefox는 다음에 자동으로 표시). 그런 다음 Firefox 프로파일의 경로를 찾으십시오 (Firefox 프로파일이 저장된 위치를 참조하십시오). scraper.py
의 49 행의 경로를 교체하십시오.
query.txt
파일은 모든 쿼리를 저장하기위한 것입니다. keyword;eventDate;startDate;endDate;pageofResult
, 한 줄 당 쿼리. Sina Weibo는 검색에서 "더 많은 스크롤을 바닥으로 스크롤"을 지원하지 않습니다. 대신 쿼리 결과를 페이지로 분리합니다. Sina는 결과 페이지를 50으로 제한합니다. 따라서 각 쿼리마다 사용자는 결과의 50 페이지 만 액세스 할 수 있습니다. 각 페이지에는 20 개의 게시물이 포함되어 있습니다. 따라서 각 검색마다 최대 1000 개의 게시물을 얻을 수 있습니다. 그러나 쿼리에서 1000 개 미만의 게시물이있을 수 있습니다. 따라서 쿼리의 모든 결과가 포함 된 최대 페이지 수를 확인하십시오 .
python scraper.py
입력하여 프로그램을 실행하십시오
Firefox 브라우저가 실행되고 키워드가 자동으로 검색 페이지로 탐색됩니다.
결과는 CSV 형식의 output
폴더에 있습니다. 각 쿼리는 하나의 CSV 파일을 생성합니다. Excel은 한자를 표시하는 데 문제가 있습니다. 따라서 다른 텍스트 편집기를 통해 보는 것이 좋습니다 (Mac을 사용하는 경우 숫자를 사용하여 CSV 파일을 열 수 있습니다).
현재이 프로그램은 내 목적으로 키워드가있는 쿼리 만 지원합니다. 모든 사람은 새로운 기능을 자유롭게 탐색 할 수 있습니다. Weibo가 API를 사용하는 경우 데이터 양을 쿼리하도록 제한하기 때문에 Sina Weibo API를 사용하지 않는다는 점에 유의해야합니다. 기본적으로 Broswer 쿠키를 사용하여 검색을 수행 할 URL 주소로 로그인합니다. 기여하기 위해 읽은 경우 풀 요청을 제출하십시오.
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 License.txt 파일을 참조하십시오.