El ejemplo de este artículo describe el método de implementación del rastreo de páginas web simple en Java. Compártelo con todos para tu referencia. El análisis específico es el siguiente:
Introducción a los antecedentes
Una introducción a TCP
1 tcp realiza transmisión punto a punto en la red
2 La transmisión se realiza a través de puertos y sockets.
Los puertos proporcionan diferentes tipos de transmisión (por ejemplo, el puerto http es 80)
1) Los enchufes se pueden vincular a puertos específicos y proporcionar funciones de transmisión
2) Un puerto se puede conectar a varios enchufes
2. Introducción a la URL
Una URL es una representación concisa de la ubicación y el método de acceso de un recurso que se puede obtener de Internet. Es la dirección de un recurso estándar en Internet.
Cada archivo en Internet tiene una URL única, que contiene información que indica la ubicación del archivo y qué debe hacer el navegador con él.
En resumen, lo que queremos rastrear el contenido de la página web es esencialmente rastrear el contenido de la página web a través de la URL.
Java proporciona dos métodos:
Una es leer la página web directamente desde la URL.
Uno es leer la página web a través de URLConnection.
Entre ellos, URLConnection es una clase con http como núcleo y proporciona muchas funciones para conectarse a http.
Este artículo proporcionará un código de ejemplo basado en URLConnection.
Antes de eso, echemos un vistazo a las excepciones sobre la URL. Si no comprende el mecanismo de excepción de Java, consulte la publicación del blog anterior.
La excepción MalformedURLException ocurre al construir una URL: la cadena de URL está vacía o es un protocolo irreconocible
Condiciones para la excepción IOException al establecer URLConnection: openConnection falló. Tenga en cuenta que el código aún no se ha conectado al control remoto durante openConnection, pero recién se está preparando para conectarse al control remoto.
En resumen, el código final es el siguiente:
Copie el código de la siguiente manera: import java.io.BufferedReader;
importar java.io.IOException;
importar java.io.InputStreamReader;
importar java.net.HttpURLConnection;
importar java.net.MalformedURLException;
importar java.net.URL;
importar java.net.URLConnection;
clase pública SimpleNetSpider {
público estático vacío principal (String [] argumentos) {
intentar{
URL u = nueva URL("http://docs.oracle.com/javase/tutorial/networking/urls/");
Conexión URLConnection = u.openConnection();
HttpURLConnection htCon = (HttpURLConnection) conexión;
código int = htCon.getResponseCode();
si (código == HttpURLConnection.HTTP_OK)
{
System.out.println("buscar el sitio web");
BufferedReader en = nuevo BufferedReader (nuevo InputStreamReader (htCon.getInputStream()));
Línea de entrada de cadena;
mientras ((inputLine = in.readLine()) != nulo)
System.out.println(entradaLínea);
cercar();
}
demás
{
System.out.println("No se puede acceder al sitio web");
}
}
captura (MalformedURLException e)
{
System.out.println("URL incorrecta");
}
captura (IOException e)
{
System.out.println("No se puede conectar");
}
}
}
Espero que este artículo sea útil para la programación Java de todos.