Comencemos con lo mismo que antes. Hablemos de las ideas sobre cómo hacer un rastreador y los conocimientos que deben estar preparados. Expertos, ignórelo.
Primero, pensemos en lo que queremos hacer y enumeremos algunos requisitos simples.
Los requisitos son los siguientes:
1. Simule el acceso al sitio web oficial de Zhihu (http://www.zhihu.com/)
2. Descargue el contenido de la página especificado, que incluye: lo más popular de hoy, lo más popular de este mes y recomendaciones del editor.
3. Descargue todas las preguntas y respuestas en las categorías especificadas, como: inversión, programación, cursos reprobados.
4. Descargue todas las respuestas del encuestado especificado.
5. Sería mejor tener una función pervertida similar a un clic (para que me puedan gustar todas las respuestas de Laylen a la vez. ¡Soy tan inteligente!)
Luego, los problemas técnicos que deben resolverse se enumeran brevemente a continuación:
1. Simular el acceso del navegador a páginas web.
2. Capture datos clave y guárdelos localmente
3. Resuelva el problema de carga dinámica en la navegación web.
4. Utilice una estructura de árbol para rastrear masivamente todo el contenido de Zhihu.
Bien, eso es todo en lo que estoy pensando ahora mismo.
El siguiente paso es la preparación.
1. Determine el lenguaje del rastreador: dado que escribí una serie de tutoriales sobre rastreadores antes (haga clic aquí), Baidu Tieba, la Enciclopedia de cosas embarazosas, la consulta de calificaciones de la Universidad de Shandong, etc., están todos escritos en Python, así que decidí usar Java. para escribirlo esta vez (alimentar completamente Si no tienes medio centavo, ¿por qué no me contactas?)
2. Conocimiento científico popular sobre rastreadores: Web Crawler, o Web Spider, es un nombre muy vívido. Si se compara Internet con una telaraña, entonces una araña es una araña que se arrastra por la red. Las arañas web buscan páginas web a través de sus direcciones de enlaces. Para obtener una introducción detallada, haga clic aquí.
3. Prepare el entorno del rastreador: no entraré en detalles sobre la instalación y configuración de Jdk y Eclipse. Aquí, un buen navegador es muy importante para los rastreadores, porque primero necesita navegar por la web para saber dónde están las cosas que necesita, y sólo entonces podrá decirles a sus rastreadores dónde ir y cómo rastrear. Personalmente recomiendo Firefox o Google Chrome. Sus funciones de hacer clic derecho para inspeccionar elementos y ver el código fuente son muy poderosas.
¡Ahora comenzamos el viaje oficial del rastreador! ~¿De qué debería hablar específicamente? Bueno, esta es una pregunta. Déjame pensar en ello.