Admite la personalización del encabezado de esta solicitud a través del encabezado (mapa) en el objeto Solicitud y admite la personalización de cookies a través de seimiCookies. Las cookies personalizadas ingresarán directamente a cookiesStore y seguirán siendo válidas para la segunda solicitud en el mismo dominio.
Optimice el modo de inicio predeterminado, modifique cn.wanghaomiao.seimi.boot.Run para admitir CommandLineParser, puede usar -c y -p para pasar parámetros, donde -c se usa para especificar nombres de rastreadores, los múltiples están separados por ',' y -p especifica un puerto, puede iniciar selectivamente un servicio http integrado y habilitar el uso de la interfaz http integrada.
El complemento de empaquetado maven-compiler-plugin se actualizó a 1.3.0, se mejoró el script en Linux y se agregó el archivo de configuración de inicio. Puede verlo en detalle en la página de inicio de maven-compiler-plugin.
El descargador predeterminado se cambia a ApacheHttpclient y la copia de seguridad es la implementación del descargador OkHttp3.
Optimizar algún código
De forma predeterminada, todos los registros de demostración se envían a la consola.
Introducción a SeimiCrawler (marco de rastreo de Java)SeimiCrawler es un marco de rastreo de Java distribuido, ágil e independiente. Espera minimizar el umbral para que los principiantes desarrollen un sistema de rastreo con alta disponibilidad y buen rendimiento, y mejorar la eficiencia del desarrollo del sistema de rastreo. En el mundo de SeimiCrawler, la mayoría de las personas solo necesitan preocuparse por escribir la lógica empresarial del rastreo, y Seimi se encargará del resto por usted. En términos de concepto de diseño, SeimiCrawler está inspirado en el marco de rastreo de Python, Scrapy. También integra las características del propio lenguaje Java y las características de Spring. Espera que sea más conveniente y común en China utilizar XPath para analizar HTML. , por lo que el analizador HTML predeterminado de SeimiCrawler es JsoupXpath (un proyecto de extensión independiente, no incluido con jsoup) utiliza XPath para analizar y extraer datos HTML de forma predeterminada (por supuesto, también puede elegir otros analizadores para el procesamiento de datos). Y combinado con SeimiAgent, resuelve completa y perfectamente el problema de la representación y el rastreo de páginas dinámicas complejas.
Visualización de SeimiCrawler (marco de rastreo de Java)