Suporta customização do cabeçalho desta requisição através do cabeçalho (mapa) no objeto Request, e suporta customização de cookies através de seimiCookies Os cookies customizados entrarão diretamente no cookiesStore e ainda serão válidos para a segunda requisição no mesmo domínio.
Otimize o modo de inicialização padrão, modifique cn.wanghaomiao.seimi.boot.Run para suportar CommandLineParser, você pode usar -c e -p para passar parâmetros, onde -c é usado para especificar nomes de rastreadores, múltiplos são separados por ',' e -p especifica uma porta, você pode iniciar seletivamente um serviço http incorporado e ativar o uso da interface http incorporada.
O plug-in de empacotamento maven-compiler-plugin foi atualizado para 1.3.0, o script no Linux foi aprimorado e o arquivo de configuração de inicialização foi adicionado. Você pode visualizá-lo em detalhes na página inicial do maven-compiler-plugin.
O downloader padrão é alterado para ApacheHttpclient e o backup é a implementação do downloader OkHttp3
Otimize algum código
Por padrão, todos os logs de demonstração são enviados para o console.
Introdução ao SeimiCrawler (estrutura de rastreador Java)SeimiCrawler é uma estrutura de rastreador Java ágil, implementada de forma independente e distribuída. Ele espera minimizar o limite para novatos desenvolverem um sistema rastreador com alta disponibilidade e bom desempenho e melhorar a eficiência do desenvolvimento do sistema rastreador. No mundo do SeimiCrawler, a maioria das pessoas só precisa se preocupar em escrever a lógica de negócios do rastreamento, e o Seimi cuidará do resto para você. Em termos de conceito de design, SeimiCrawler é inspirado na estrutura de rastreador Scrapy do Python. Ele também integra as características da própria linguagem Java e as características do Spring. Ele espera tornar mais conveniente e comum na China o uso de XPath mais eficiente para analisar HTML. , então o analisador HTML padrão do SeimiCrawler é JsoupXpath (um projeto de extensão independente, não incluído no jsoup) que usa XPath para analisar e extrair dados HTML por padrão (é claro, você também pode escolher outros analisadores para processamento de dados). E combinado com o SeimiAgent, ele resolve completa e perfeitamente o problema de renderização e rastreamento dinâmico complexo de páginas.
Exibição do SeimiCrawler (estrutura do rastreador Java)