Request 객체의 헤더(맵)를 통해 이 요청의 헤더 사용자 정의를 지원하고 seimiCookies를 통한 쿠키 사용자 정의를 지원합니다. 사용자 정의된 쿠키는 cookieStore에 직접 들어가고 동일한 도메인의 두 번째 요청에 대해 여전히 유효합니다.
기본 시작 모드를 최적화하고 CommandLineParser를 지원하도록 cn.wanghaomiao.seimi.boot.Run을 수정합니다. -c 및 -p를 사용하여 매개변수를 전달할 수 있습니다. 여기서 -c는 크롤러 이름을 지정하는 데 사용되며 배수는 ','로 구분됩니다. -p는 포트를 지정하며, 내장된 http 서비스를 선택적으로 시작하고 내장된 http 인터페이스의 사용을 활성화할 수 있습니다.
maven-compiler-plugin 패키징 플러그인이 1.3.0으로 업그레이드되었고, Linux에서의 스크립트가 개선되었으며, 시작 구성 파일이 추가되었습니다. maven-compiler-plugin 홈페이지에서 자세히 보실 수 있습니다.
기본 다운로더는 ApacheHttpclient로 변경되고 백업은 다운로더 OkHttp3 구현입니다.
일부 코드 최적화
기본적으로 모든 데모 로그는 콘솔에 출력됩니다.
SeimiCrawler 소개(Java 크롤러 프레임워크)SeimiCrawler는 민첩하고 독립적으로 배포되는 분산 Java 크롤러 프레임워크로, 초보자가 고가용성 및 우수한 성능을 갖춘 크롤러 시스템을 개발할 수 있는 한계점을 최소화하고 크롤러 시스템 개발의 개발 효율성을 향상시키기를 희망합니다. SeimiCrawler의 세계에서 대부분의 사람들은 크롤링의 비즈니스 논리 작성에만 신경 쓰면 되며 나머지는 Seimi가 처리해 드립니다. 디자인 컨셉 측면에서 SeimiCrawler는 Python의 크롤러 프레임워크인 Scrapy에서 영감을 얻었으며 Java 언어 자체의 특성과 Spring의 특성을 통합하여 중국에서 보다 효율적인 XPath를 사용하여 HTML을 구문 분석하는 것이 더 편리하고 일반적이기를 바랍니다. 따라서 SeimiCrawler의 기본 HTML 파서는 JsoupXpath(jsoup에 포함되지 않은 독립 확장 프로젝트)입니다. XPath를 사용하여 기본적으로 HTML 데이터를 구문 분석하고 추출합니다(물론 데이터 처리를 위해 다른 파서를 선택할 수도 있습니다). SeimiAgent와 결합하면 복잡한 동적 페이지 렌더링 및 크롤링 문제를 완전하고 완벽하게 해결합니다.
SeimiCrawler(Java 크롤러 프레임워크) 표시