Пример в этой статье описывает метод реализации простого сканирования веб-страниц на Java. Поделитесь этим со всеми для справки. Конкретный анализ заключается в следующем:
Предыстория
Введение в TCP
1 TCP реализует двухточечную передачу в сети
2 Передача осуществляется через порты и розетки
Порты обеспечивают разные типы передачи (например, http-порт — 80).
1) Сокеты могут быть привязаны к определенным портам и обеспечивать функции передачи.
2) Один порт может подключаться к нескольким сокетам.
2. Знакомство с URL-адресом
URL-адрес — это краткое представление местоположения и метода доступа к ресурсу, который можно получить из Интернета. Это адрес стандартного ресурса в Интернете.
Каждый файл в Интернете имеет уникальный URL-адрес, который содержит информацию о местоположении файла и о том, что браузер должен с ним делать.
Подводя итог, мы хотим, чтобы сканировать содержимое веб-страницы, по сути, сканировать содержимое веб-страницы через URL-адрес.
Java предоставляет два метода:
Один из них — прочитать веб-страницу непосредственно по URL-адресу.
Один из них — прочитать веб-страницу через URLConnection.
Среди них URLConnection — это класс с http в качестве ядра, который предоставляет множество функций для подключения к http.
В этой статье будет приведен пример кода на основе URLConnection.
Перед этим давайте посмотрим на исключения, связанные с URL-адресом. Если вы не понимаете механизм исключений Java, обратитесь к предыдущему сообщению в блоге.
Исключение MalformedURLException возникает при создании URL-адреса: строка URL-адреса пуста или нераспознаваемый протокол.
Условия исключения IOException при установлении URLConnection: ошибка openConnection. Обратите внимание, что код еще не подключился к удаленному устройству во время openConnection, а только готовится к подключению к удаленному устройству.
Подводя итог, окончательный код выглядит следующим образом:
Скопируйте код следующим образом: import java.io.BufferedReader;
импортировать java.io.IOException;
импортировать java.io.InputStreamReader;
импортировать java.net.HttpURLConnection;
импортировать java.net.MalformedURLException;
импортировать java.net.URL;
импортировать java.net.URLConnection;
общественный класс SimpleNetSpider {
public static void main(String[] args) {
пытаться{
URL-адрес u = новый URL-адрес("http://docs.oracle.com/javase/tutorial/networking/urls/");
Соединение URLConnection = u.openConnection();
HttpURLConnection htCon = (HttpURLConnection) соединение;
код int = htCon.getResponseCode();
если (код == HttpURLConnection.HTTP_OK)
{
System.out.println("найти сайт");
BufferedReader in = новый BufferedReader (новый InputStreamReader (htCon.getInputStream ()));
Строка inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
в.закрыть();
}
еще
{
System.out.println("Невозможно получить доступ к сайту");
}
}
поймать (MalformedURLException е)
{
System.out.println("Неверный URL");
}
поймать (IOException е)
{
System.out.println("Невозможно подключиться");
}
}
}
Я надеюсь, что эта статья будет полезна каждому, кто занимается программированием на Java.