Baidu 크롤링을 위한 강력한 도구
중국어(간체 ) 중국어(번체 ) |
빠르게 시작하기 »
예시 보기 · 문제 보고 · 요구 사항 요청
검색 엔진은 매우 강력한 도구이며, 다른 도구가 검색 엔진의 많은 강력한 기능과 통합될 수 있다면 이러한 도구는 더욱 강력해질 것입니다. 하지만 현재 검색엔진 검색결과를 정확하게 추출할 수 있는 오픈소스 크롤러를 찾지 못했습니다. 그래서 저는 Baidu 검색 엔진인 BaiduSpider를 크롤링하기 위해 이 프로젝트를 작성했습니다.
BaiduSpider의 고유한 기능:
데이터 추출 시간을 절약해주며 유사한 딥러닝 프로젝트에서 데이터 모델 구축 및 훈련에 좋은 도움이 됩니다.
정확하게 데이터를 추출하고 광고를 제거하세요.
검색 결과는 크고 포괄적이며 여러 검색 유형과 여러 반환 유형을 지원합니다.
물론 완벽한 프로젝트는 없습니다. 모든 프로젝트의 개발에는 커뮤니티의 도움이 필요합니다. 이슈를 게시하거나 PR을 제출하여 BaiduSpider의 발전을 도울 수 있습니다! :웃다:
일부 유용한 문서나 도구는 끝 부분의 감사 인사 섹션에 나열되어 있습니다.
BaiduSpider에서 사용하는 주요 오픈 소스 종속성 라이브러리 중 일부입니다.
BaiduSpider를 설치하려면 다음 몇 단계를 따르세요.
BaiduSpider를 설치하기 전에 Python3.6+
설치되어 있는지 확인하세요.
$ python --version
버전이 3.6.0
미만인 경우 Python 공식 웹사이트로 이동하여 Python을 다운로드하고 설치하세요.
pip
사용하여 설치명령줄에 다음을 입력하세요.
$ pip install baiduspider
$ git clone [email protected]:BaiduSpider/BaiduSpider.git
# ...
$ python setup.py install
다음 코드를 사용하여 BaiduSpider를 통해 Baidu의 웹 검색 결과를 얻을 수 있습니다.
# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint
# 实例化BaiduSpider
spider = BaiduSpider ()
# 搜索网页
pprint ( spider . search_web ( query = 'Python' ))
더 많은 샘플과 구성을 보려면 설명서를 참조하세요.
최신 프로젝트 계획 및 알려진 문제는 공개 문제를 참조하세요.
커뮤니티 기여는 오픈 소스 프로젝트의 핵심이자 전체 오픈 소스 커뮤니티가 배우고, 소통하고, 영감을 얻을 수 있는 방법이기도 합니다. 우리는 이 프로젝트의 개발 및 유지 관리에 참여하는 모든 사람을 강력히 환영합니다 .
구체적인 참여 단계는 다음과 같습니다.
git checkout -b NewFeatures
)git commit -m 'Add some AmazingFeature'
).git push origin username/BaiduSpider
) 이 프로젝트는 GPL-V3
기반의 오픈 소스입니다. 자세한 내용은 LICENSE
참조하세요.
samzhangjy - @samzhangjy - [email protected]
프로젝트 링크: https://github.com/BaiduSpider/BaiduSpider
이 프로젝트는 학습 목적으로만 사용되며 상업적인 목적으로 사용하거나 대량의 Baidu 데이터를 크롤링하는 데 사용할 수 없습니다. 또한, 이 프로젝트는 GPL-V3
저작권 계약을 사용합니다. 즉, 이 프로젝트와 관련된(사용) 다른 모든 프로젝트는 오픈 소스여야 하며 소스를 표시해야 하며, 이 프로젝트의 작성자는 오용으로 인해 발생하는 법적 위험을 부담하지 않습니다. 위반자는 자신의 책임 하에 결과를 감수해야 한다고 명시되어 있습니다.