SinaWeiboScraper 다운로드 SinaWeiboScraper 소스 코드 다운로드

SinaWeiboScraper

기타 소스코드

1.0.0

다운로드

Sinaweiboscraper

키워드 별 Sina Weibo 검색을위한 웹 스크레이퍼입니다.

Sinaweiboscraper를 사용하는 이유는 무엇입니까?

Sina Weibo 스크레이퍼가 있습니다. 그러나 그들은 모두 Weibo API와 함께 구현됩니다. Sina Weibo는 API를 사용하는 경우 매 시간, 일 및 월마다 얻을 수있는 데이터의 양을 제한합니다. 이것은 순수 URL 인코딩에서 구현 한 키워드로 Sina Weibo 검색을위한 웹 스크레이퍼로 실제 브라우저를 시뮬레이션하고 페이지를 탐색하고 데이터에 액세스 할 수 있도록합니다. 한계를 제거합니다. Weibo를 사용하면 귀하가 기계가 아니라는 것을 증명하기 위해 검증 코드를 입력 할 수 있지만 종종 그렇지 않습니다.

작가

Xuzhou Yin. 개인 웹 사이트 : www.xuzhouyin.com

다운로드하는 방법

터미널을 열고 프로그램을 저장하려는 디렉토리로 이동 한 다음 git clone address 입력하여 프로그램을 다운로드하십시오.

의존성

파이썬 2.7 이상
Firefox 브라우저 (다른 브라우저는 향후 지원 될 수 있음)
셀렌. pip install selenium 입력하십시오
시간. pip install time 입력하십시오
BS4. pip install bs4 입력하십시오
urllib. pip install urllib 입력하십시오
DateTime. pip install datetime 입력하십시오
unicodecsv. 유형 pip install unicodecsv

사용 방법

프로그램을 실행하기 전에

Sina Weibo Limits 사용자 만 로그인 한 검색 기능의 허가는 고급 검색 (예 : 특정 기간이있는 검색)을 사용할 수 있습니다. 따라서 Sina Weibo 계정에 등록하고 Firefox 브라우저를 통해 로그인하십시오 (따라서 Firefox는 다음에 자동으로 표시). 그런 다음 Firefox 프로파일의 경로를 찾으십시오 (Firefox 프로파일이 저장된 위치를 참조하십시오). scraper.py 의 49 행의 경로를 교체하십시오.

질문

query.txt 파일은 모든 쿼리를 저장하기위한 것입니다. keyword;eventDate;startDate;endDate;pageofResult , 한 줄 당 쿼리. Sina Weibo는 검색에서 "더 많은 스크롤을 바닥으로 스크롤"을 지원하지 않습니다. 대신 쿼리 결과를 페이지로 분리합니다. Sina는 결과 페이지를 50으로 제한합니다. 따라서 각 쿼리마다 사용자는 결과의 50 페이지 만 액세스 할 수 있습니다. 각 페이지에는 20 개의 게시물이 포함되어 있습니다. 따라서 각 검색마다 최대 1000 개의 게시물을 얻을 수 있습니다. 그러나 쿼리에서 1000 개 미만의 게시물이있을 수 있습니다. 따라서 쿼리의 모든 결과가 포함 된 최대 페이지 수를 확인하십시오 .

프로그램을 실행하십시오

python scraper.py 입력하여 프로그램을 실행하십시오

실행 중에 무슨 일이 일어나는지

Firefox 브라우저가 실행되고 키워드가 자동으로 검색 페이지로 탐색됩니다.

산출

결과는 CSV 형식의 output 폴더에 있습니다. 각 쿼리는 하나의 CSV 파일을 생성합니다. Excel은 한자를 표시하는 데 문제가 있습니다. 따라서 다른 텍스트 편집기를 통해 보는 것이 좋습니다 (Mac을 사용하는 경우 숫자를 사용하여 CSV 파일을 열 수 있습니다).

개발자의 방법

현재이 프로그램은 내 목적으로 키워드가있는 쿼리 만 지원합니다. 모든 사람은 새로운 기능을 자유롭게 탐색 할 수 있습니다. Weibo가 API를 사용하는 경우 데이터 양을 쿼리하도록 제한하기 때문에 Sina Weibo API를 사용하지 않는다는 점에 유의해야합니다. 기본적으로 Broswer 쿠키를 사용하여 검색을 수행 할 URL 주소로 로그인합니다. 기여하기 위해 읽은 경우 풀 요청을 제출하십시오.