크롤러를 만드는 아이디어와 준비해야 할 지식에 대해 이전과 같은 것부터 시작하겠습니다.
먼저 우리가 하고 싶은 일이 무엇인지 생각해보고 몇 가지 간단한 요구 사항을 나열해 보겠습니다.
요구 사항은 다음과 같습니다.
1. Zhihu 공식 웹사이트(http://www.zhihu.com/)에 대한 액세스를 시뮬레이션합니다.
2. 오늘의 가장 인기 있는 콘텐츠, 이번 달 가장 인기 있는 콘텐츠, 편집자 추천 등 특정 페이지 콘텐츠를 다운로드하세요.
3. 투자, 프로그래밍, 낙제 강좌 등 지정된 카테고리의 모든 질문과 답변을 다운로드하세요.
4. 지정된 응답자의 모든 답변을 다운로드합니다.
5. 변태적인 원클릭 같은 기능이 있으면 더 좋을 것 같아요. (레일런 답변을 한번에 다 좋아요 할 수 있게. 너무 똑똑해요!)
그러면 해결해야 할 기술적 문제를 간략하게 나열하면 다음과 같습니다.
1. 웹페이지에 대한 브라우저 액세스 시뮬레이션
2. 주요 데이터를 캡처하고 로컬에 저장합니다.
3. 웹 브라우징 시 동적 로딩 문제 해결
4. 트리 구조를 사용하여 Zhihu의 모든 콘텐츠를 대규모로 크롤링합니다.
좋아, 그게 내가 지금 생각하는 전부야.
다음 단계는 준비입니다.
1. 크롤러 언어 결정: 이전에 일련의 크롤러 튜토리얼을 작성했기 때문에(여기 클릭) Baidu Tieba, Encyclopedia of Emarrassing Things, Shandong University의 학점 쿼리 등은 모두 Python으로 작성되었으므로 Java를 사용하기로 결정했습니다. 이번에 쓰려고 (완전히 먹이세요. 한 푼도 없으면 연락하지 않으시겠어요?)
2. 대중적인 과학 크롤러 지식: 웹 크롤러 또는 웹 스파이더(Web Spider)는 매우 생생한 이름입니다. 인터넷을 거미줄에 비유한다면 거미는 웹 위를 기어다니는 거미입니다. 웹 스파이더는 링크 주소를 통해 웹 페이지를 검색합니다. 자세한 소개를 보려면 여기를 클릭하세요.
3. 크롤러 환경 준비: Jdk 및 Eclipse의 설치 및 구성에 대해서는 자세히 설명하지 않겠습니다. 여기에서 좋은 브라우저는 크롤러에게 매우 중요합니다. 먼저 웹을 검색하여 필요한 항목이 어디에 있는지 알아야 하고, 그런 다음에만 크롤러에게 어디로 가야 할지, 크롤링 방법을 알려줄 수 있기 때문입니다. 저는 개인적으로 Firefox나 Google Chrome을 추천합니다. 마우스 오른쪽 버튼을 클릭하여 요소를 검사하고 소스 코드를 보는 기능은 매우 강력합니다.
이제 공식 크롤러 여정을 시작합니다! ~구체적으로 무엇을 이야기해야 할까요? 그럼, 고민하지 마세요.