O exemplo neste artigo descreve o método de implementação de rastreamento simples de páginas da web em Java. Compartilhe com todos para sua referência. A análise específica é a seguinte:
Introdução ao histórico
Uma introdução ao tcp
1 tcp realiza transmissão ponto a ponto na rede
2 A transmissão é feita através de portas e soquetes
As portas fornecem diferentes tipos de transmissão (por exemplo, a porta http é 80)
1) Os soquetes podem ser vinculados a portas específicas e fornecer funções de transmissão
2) Uma porta pode se conectar a vários soquetes
2. Introdução ao URL
Uma URL é uma representação concisa da localização e do método de acesso de um recurso que pode ser obtido na Internet. É o endereço de um recurso padrão na Internet.
Cada arquivo na Internet possui uma URL única, que contém informações que indicam a localização do arquivo e o que o navegador deve fazer com ele.
Resumindo, o que queremos rastrear o conteúdo da página da web é essencialmente rastrear o conteúdo da página da web por meio do URL.
Java fornece dois métodos:
Uma é ler a página da web diretamente do URL
Uma é ler a página da web por meio de URLConnection
Entre eles, URLConnection é uma classe com http como núcleo e fornece muitas funções para conexão com http.
Este artigo dará um exemplo de código baseado em URLConnection.
Antes disso, vamos dar uma olhada nas exceções sobre url. Se você não entende o mecanismo de exceção Java, consulte a postagem anterior do blog.
A exceção MalformedURLException ocorre ao construir uma URL: a string da URL está vazia ou é um protocolo irreconhecível
Condições para a exceção IOException ao estabelecer URLConnection: openConnection falhou. Observe que o código ainda não se conectou ao remoto durante o openConnection, mas está apenas se preparando para se conectar ao remoto.
Resumindo, o código final é o seguinte:
Copie o código da seguinte maneira: import java.io.BufferedReader;
importar java.io.IOException;
importar java.io.InputStreamReader;
importar java.net.HttpURLConnection;
importar java.net.MalformedURLException;
importar java.net.URL;
importar java.net.URLConnection;
classe pública SimpleNetSpider {
public static void main(String[] args) {
tentar{
URL você = novo URL("http://docs.oracle.com/javase/tutorial/networking/urls/");
Conexão URLConnection = u.openConnection();
HttpURLConnection htCon = (HttpURLConnection) conexão;
código interno = htCon.getResponseCode();
if (código == HttpURLConnection.HTTP_OK)
{
System.out.println("encontre o site");
BufferedReader in=new BufferedReader(new InputStreamReader(htCon.getInputStream()));
String entradaLinha;
while ((inputLine = in.readLine()) != nulo)
System.out.println(inputLine);
in.close();
}
outro
{
System.out.println("Não é possível acessar o site");
}
}
catch(MalformadoURLException e)
{
System.out.println("URL errada");
}
pegar(IOException e)
{
System.out.println("Não é possível conectar");
}
}
}
Espero que este artigo seja útil para a programação Java de todos.