Vorbereitungsarbeiten zum Schreiben des Java Zhihu-Crawlers von Grund auf

Autor：Eve Cole Aktualisierungszeit：2025-01-15 18:24:01

Beginnen wir mit dem Gleichen wie zuvor. Lassen Sie uns über die Ideen zur Herstellung eines Crawlers und das Wissen sprechen, das vorbereitet werden muss. Experten, bitte ignorieren Sie es.

Lassen Sie uns zunächst darüber nachdenken, was wir tun möchten, und einige einfache Anforderungen auflisten.

Die Anforderungen lauten wie folgt:

1. Simulieren Sie den Zugriff auf die offizielle Website von Zhihu (http://www.zhihu.com/).

2. Laden Sie den angegebenen Seiteninhalt herunter, einschließlich der heißesten Nachrichten von heute, der heißesten Nachrichten dieses Monats und Empfehlungen des Herausgebers

3. Laden Sie alle Fragen und Antworten in den angegebenen Kategorien herunter, z. B.: Investition, Programmierung, nicht bestandene Kurse

4. Laden Sie alle Antworten des angegebenen Befragten herunter

5. Am besten wäre es, eine perverse One-Click-Like-Funktion zu haben (damit ich alle Antworten von Laylen auf einmal liken kann. Ich bin so schlau!)

Anschließend werden die technischen Probleme, die gelöst werden müssen, kurz wie folgt aufgelistet:

1. Simulieren Sie den Browserzugriff auf Webseiten

2. Erfassen Sie wichtige Daten und speichern Sie sie lokal

3. Lösen Sie das Problem des dynamischen Ladens beim Surfen im Internet

4. Verwenden Sie eine Baumstruktur, um alle Inhalte auf Zhihu massiv zu crawlen

Okay, das ist alles, woran ich gerade denke.

Der nächste Schritt ist die Vorbereitung.

1. Bestimmen Sie die Crawler-Sprache: Da ich bereits eine Reihe von Crawler-Tutorials geschrieben habe (hier klicken), sind Baidu Tieba, Encyclopedia of Embarrassing Things, die Notenabfrage der Shandong University usw. alle in Python geschrieben, daher habe ich mich für die Verwendung von Java entschieden um es dieses Mal zu schreiben (vollständig füttern Wenn du keinen halben Cent hast, warum kontaktierst du mich nicht?)

2. Populärwissenschaftliches Crawler-Wissen: Webcrawler oder Web Spider ist ein sehr anschaulicher Name. Wenn man das Internet mit einem Spinnennetz vergleicht, dann ist eine Spinne eine Spinne, die im Netz herumkriecht. Webspider suchen über ihre Linkadressen nach Webseiten. Für eine ausführliche Einführung klicken Sie bitte hier.

3. Bereiten Sie die Crawler-Umgebung vor: Ich werde nicht näher auf die Installation und Konfiguration von Jdk und Eclipse eingehen. Hier ist ein guter Browser für Crawler sehr wichtig, denn zunächst müssen Sie im Internet surfen, um herauszufinden, wo sich die Dinge befinden, die Sie benötigen, und erst dann können Sie Ihren Crawlern sagen, wohin sie gehen und wie sie crawlen sollen. Ich persönlich empfehle Firefox oder Google Chrome. Ihre Funktionen zum Überprüfen von Elementen mit der rechten Maustaste und zum Anzeigen des Quellcodes sind sehr leistungsstark.

Jetzt starten wir die offizielle Crawler-Reise! ~Worüber soll ich konkret sprechen? Nun, das ist eine Frage. Mach dir keine Sorgen^_^