이 기사의 예에서는 Java에서 간단한 웹 페이지 크롤링을 구현하는 방법을 설명합니다. 참고할 수 있도록 모든 사람과 공유하세요. 구체적인 분석은 다음과 같습니다.
배경 소개
TCP 소개
1 tcp는 네트워크에서 지점 간 전송을 실현합니다.
2 전송은 포트와 소켓을 통해 이루어집니다.
포트는 다양한 유형의 전송을 제공합니다(예: http 포트는 80).
1) 소켓은 특정 포트에 바인딩되어 전송 기능을 제공할 수 있습니다.
2) 하나의 포트는 여러 소켓에 연결할 수 있습니다
2. URL 소개
URL은 인터넷에서 얻을 수 있는 리소스의 위치와 액세스 방법을 간결하게 표현한 것입니다. 인터넷상의 표준 리소스의 주소입니다.
인터넷의 모든 파일에는 파일 위치와 브라우저가 해당 파일로 수행해야 하는 작업을 나타내는 정보가 포함된 고유한 URL이 있습니다.
요약하자면, 우리가 웹페이지의 콘텐츠를 크롤링하려는 것은 기본적으로 URL을 통해 웹페이지 콘텐츠를 크롤링하는 것입니다.
Java는 두 가지 방법을 제공합니다.
하나는 URL에서 직접 웹페이지를 읽는 것입니다.
하나는 URLConnection을 통해 웹페이지를 읽는 것입니다.
그 중 URLConnection은 http를 핵심으로 하는 클래스로 http에 접속하기 위한 다양한 기능을 제공한다.
이 기사에서는 URLConnection을 기반으로 한 예제 코드를 제공합니다.
그 전에 url에 대한 예외 사항을 살펴보겠습니다. Java 예외 메커니즘을 이해하지 못하는 경우 이전 블로그 게시물을 참조하세요.
URL을 생성할 때 MalformedURLException 예외가 발생합니다. URL 문자열이 비어 있거나 인식할 수 없는 프로토콜입니다.
URLConnection 설정 시 IOException 예외 조건: openConnection이 실패했습니다. 코드가 openConnection 중에 아직 원격 연결되지 않았지만 원격 연결을 준비하는 중입니다.
요약하면 최종 코드는 다음과 같습니다.
다음과 같이 코드를 복사합니다. import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
java.net.HttpURLConnection 가져오기;
import java.net.MalformedURLException;
java.net.URL 가져오기;
java.net.URLConnection 가져오기;
공개 클래스 SimpleNetSpider {
공개 정적 무효 메인(String[] args) {
노력하다{
URL u = 새 URL("http://docs.oracle.com/javase/tutorial/networking/urls/");
URLConnection 연결 = u.openConnection();
HttpURLConnection htCon = (HttpURLConnection) 연결;
정수 코드 = htCon.getResponseCode();
if (코드 == HttpURLConnection.HTTP_OK)
{
System.out.println("웹사이트를 찾으세요");
BufferedReader in=new BufferedReader(new InputStreamReader(htCon.getInputStream()));
문자열 inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
넣다();
}
또 다른
{
System.out.println("웹사이트에 접속할 수 없습니다.");
}
}
catch(MalformedURLException e)
{
System.out.println("잘못된 URL");
}
catch(IO예외e)
{
System.out.println("연결할 수 없습니다.");
}
}
}
이 글이 모든 사람의 Java 프로그래밍에 도움이 되기를 바랍니다.