Commençons par la même chose que précédemment. Parlons des idées de création d'un robot et des connaissances qui doivent être préparées. Les experts, veuillez l'ignorer.
Tout d’abord, réfléchissons à ce que nous voulons faire et énumérons quelques exigences simples.
Les exigences sont les suivantes :
1. Simulez l'accès au site officiel de Zhihu (http://www.zhihu.com/)
2. Téléchargez le contenu de la page spécifié, y compris : les recommandations les plus populaires du jour, les plus chaudes de ce mois-ci et les éditeurs.
3. Téléchargez toutes les questions et réponses dans les catégories spécifiées, telles que : investissement, programmation, cours en échec
4. Téléchargez toutes les réponses du répondant spécifié
5. Il serait préférable d'avoir une fonction perverse de type « un clic » (afin que je puisse aimer toutes les réponses de Laylen en même temps. Je suis tellement intelligente !)
Ensuite, les problèmes techniques à résoudre sont brièvement répertoriés comme suit :
1. Simulez l'accès du navigateur aux pages Web
2. Capturez les données clés et enregistrez-les localement
3. Résolvez le problème de chargement dynamique dans la navigation Web
4. Utilisez une arborescence pour explorer massivement tout le contenu sur Zhihu
D'accord, c'est tout ce à quoi je pense en ce moment.
La prochaine étape est la préparation.
1. Déterminez le langage du robot : depuis que j'ai déjà écrit une série de didacticiels sur les robots (cliquez ici), Baidu Tieba, l'Encyclopédie des choses embarrassantes, la requête de notation de l'Université du Shandong, etc. sont tous écrits en python, j'ai donc décidé d'utiliser Java pour l'écrire cette fois (nourrir complètement Si vous n'avez pas un demi-centime, pourquoi ne me contactez-vous pas ?)
2. Connaissances scientifiques populaires en matière de robots d'exploration : Web Crawler, ou Web Spider, est un nom très vivant. Si Internet est comparé à une toile d’araignée, alors une araignée est une araignée qui rampe sur la toile. Les robots Web recherchent des pages Web via leurs adresses de liens. Pour une introduction détaillée, veuillez cliquer ici.
3. Préparez l'environnement du robot : je n'entrerai pas dans les détails de l'installation et de la configuration de Jdk et d'Eclipse. Ici, un bon navigateur est très important pour les robots d'exploration, car vous devez d'abord naviguer sur le Web pour savoir où se trouvent les éléments dont vous avez besoin, et ensuite seulement vous pourrez indiquer à vos robots d'exploration où aller et comment explorer. Je recommande personnellement Firefox ou Google Chrome. Leurs fonctions de clic droit pour inspecter les éléments et visualiser le code source sont très puissantes.
Nous commençons maintenant le voyage officiel du robot ! ~ De quoi dois-je parler spécifiquement ? Eh bien, c'est une question. Ne m'inquiète pas ^_^.