Trabalho de preparação para escrever o rastreador Java Zhihu do zero

Autor：Eve Cole Data da Última Atualização：2025-01-15 18:24:01

Vamos começar com a mesma coisa de antes. Vamos falar sobre as ideias de fazer um rastreador e o conhecimento que precisa ser preparado. Especialistas, por favor, ignorem.

Primeiro, vamos pensar no que queremos fazer e listar alguns requisitos simples.

Os requisitos são os seguintes:

1. Simule o acesso ao site oficial da Zhihu (http://www.zhihu.com/)

2. Baixe o conteúdo da página especificado, incluindo: o mais quente de hoje, o mais quente deste mês e recomendações do editor

3. Baixe todas as perguntas e respostas nas categorias especificadas, como: investimento, programação, cursos reprovados

4. Baixe todas as respostas do entrevistado especificado

5. Seria melhor ter uma função pervertida semelhante a um clique (para que eu possa gostar de todas as respostas de Laylen de uma vez. Sou tão inteligente!)

Em seguida, os problemas técnicos que precisam ser resolvidos são listados resumidamente a seguir:

1. Simule o acesso do navegador a páginas da web

2. Capture dados importantes e salve-os localmente

3. Resolva o problema de carregamento dinâmico na navegação na web

4. Use uma estrutura de árvore para rastrear massivamente todo o conteúdo do Zhihu

Ok, é só nisso que estou pensando agora.

O próximo passo é a preparação.

1. Determine a linguagem do rastreador: como já escrevi uma série de tutoriais sobre rastreadores (clique aqui), Baidu Tieba, Enciclopédia de Coisas Embaraçosas, consulta de notas da Universidade de Shandong, etc. são todos escritos em python, então decidi usar Java para escrever desta vez (alimentar completamente. Se você não tem meio centavo, por que não entra em contato comigo?)

2. Conhecimento popular sobre rastreadores científicos: Web crawler, ou Web Spider, é um nome muito vívido. Se a Internet for comparada a uma teia de aranha, então uma aranha é uma aranha rastejando pela teia. Os web spiders procuram páginas da web por meio de seus endereços de links. Para uma introdução detalhada, clique aqui.

3. Prepare o ambiente do crawler: não entrarei em detalhes sobre a instalação e configuração do Jdk e do Eclipse. Aqui, um bom navegador é muito importante para os rastreadores, porque primeiro você precisa navegar na web para saber onde estão as coisas que você precisa e só então você pode dizer aos seus rastreadores para onde ir e como rastrear. Eu pessoalmente recomendo o Firefox ou o Google Chrome. Suas funções de clicar com o botão direito para inspecionar elementos e visualizar o código-fonte são muito poderosas.

Agora iniciamos a jornada oficial do crawler! ~Sobre o que devo falar especificamente? Bem, deixe-me pensar sobre isso.