Das Beispiel in diesem Artikel beschreibt die Implementierungsmethode des einfachen Webseiten-Crawlings in Java. Teilen Sie es als Referenz mit allen. Die spezifische Analyse lautet wie folgt:
Hintergrundeinführung
Eine Einführung in TCP
1 TCP realisiert die Punkt-zu-Punkt-Übertragung im Netzwerk
2 Die Übertragung erfolgt über Ports und Sockets
Ports bieten verschiedene Übertragungsarten (z. B. ist der HTTP-Port 80).
1) Sockets können an bestimmte Ports gebunden werden und Übertragungsfunktionen bereitstellen
2) Ein Port kann mit mehreren Steckdosen verbunden werden
2. Einführung in die URL
Eine URL ist eine prägnante Darstellung des Standorts und der Zugriffsmethode einer Ressource, die aus dem Internet abgerufen werden kann. Es handelt sich um die Adresse einer Standardressource im Internet.
Jede Datei im Internet verfügt über eine eindeutige URL, die Informationen über den Speicherort der Datei und darüber enthält, was der Browser damit tun soll.
Zusammenfassend lässt sich sagen, dass wir den Inhalt der Webseite im Wesentlichen crawlen möchten, indem wir den Inhalt der Webseite über die URL crawlen.
Java bietet zwei Methoden:
Eine besteht darin, die Webseite direkt über die URL zu lesen
Eine besteht darin, die Webseite über URLConnection zu lesen
Unter diesen ist URLConnection eine Klasse mit http als Kern und bietet viele Funktionen zum Herstellen einer Verbindung zu http.
Dieser Artikel enthält Beispielcode basierend auf URLConnection.
Werfen wir vorher einen Blick auf die Ausnahmen bezüglich der URL. Wenn Sie den Java-Ausnahmemechanismus nicht verstehen, lesen Sie bitte den vorherigen Blogbeitrag.
Die Ausnahme MalformedURLException tritt beim Erstellen einer URL auf: Die URL-Zeichenfolge ist leer oder ein nicht erkennbares Protokoll
Bedingungen für die Ausnahme IOException beim Einrichten von URLConnection: openConnection ist fehlgeschlagen. Beachten Sie, dass der Code während openConnection noch keine Verbindung zur Fernbedienung hergestellt hat, sondern sich gerade auf die Verbindung zur Fernbedienung vorbereitet.
Zusammenfassend lautet der endgültige Code wie folgt:
Kopieren Sie den Code wie folgt: import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
java.net.URL importieren;
import java.net.URLConnection;
öffentliche Klasse SimpleNetSpider {
public static void main(String[] args) {
versuchen{
URL u = neue URL("http://docs.oracle.com/javase/tutorial/networking/urls/");
URLConnection-Verbindung = u.openConnection();
HttpURLConnection htCon = (HttpURLConnection) Verbindung;
int code = htCon.getResponseCode();
if (code == HttpURLConnection.HTTP_OK)
{
System.out.println("Website finden");
BufferedReader in=new BufferedReader(new InputStreamReader(htCon.getInputStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
}
anders
{
System.out.println("Kann nicht auf die Website zugreifen");
}
}
Catch(MalformedURLException e)
{
System.out.println("Falsche URL");
}
Catch(IOException e)
{
System.out.println("Verbindung nicht möglich");
}
}
}
Ich hoffe, dass dieser Artikel für die Java-Programmierung aller hilfreich sein wird.