SeimiCrawler

Sistema CMS

v0

Recursos Indisponíveis

Atualização do SeimiCrawler (estrutura do rastreador Java)

Suporta customização do cabeçalho desta requisição através do cabeçalho (mapa) no objeto Request, e suporta customização de cookies através de seimiCookies Os cookies customizados entrarão diretamente no cookiesStore e ainda serão válidos para a segunda requisição no mesmo domínio.

Otimize o modo de inicialização padrão, modifique cn.wanghaomiao.seimi.boot.Run para suportar CommandLineParser, você pode usar -c e -p para passar parâmetros, onde -c é usado para especificar nomes de rastreadores, múltiplos são separados por ',' e -p especifica uma porta, você pode iniciar seletivamente um serviço http incorporado e ativar o uso da interface http incorporada.

O plug-in de empacotamento maven-compiler-plugin foi atualizado para 1.3.0, o script no Linux foi aprimorado e o arquivo de configuração de inicialização foi adicionado. Você pode visualizá-lo em detalhes na página inicial do maven-compiler-plugin.

O downloader padrão é alterado para ApacheHttpclient e o backup é a implementação do downloader OkHttp3

Otimize algum código

Por padrão, todos os logs de demonstração são enviados para o console.

Introdução ao SeimiCrawler (estrutura de rastreador Java)

SeimiCrawler é uma estrutura de rastreador Java ágil, implementada de forma independente e distribuída. Ele espera minimizar o limite para novatos desenvolverem um sistema rastreador com alta disponibilidade e bom desempenho e melhorar a eficiência do desenvolvimento do sistema rastreador. No mundo do SeimiCrawler, a maioria das pessoas só precisa se preocupar em escrever a lógica de negócios do rastreamento, e o Seimi cuidará do resto para você. Em termos de conceito de design, SeimiCrawler é inspirado na estrutura de rastreador Scrapy do Python. Ele também integra as características da própria linguagem Java e as características do Spring. Ele espera tornar mais conveniente e comum na China o uso de XPath mais eficiente para analisar HTML. , então o analisador HTML padrão do SeimiCrawler é JsoupXpath (um projeto de extensão independente, não incluído no jsoup) que usa XPath para analisar e extrair dados HTML por padrão (é claro, você também pode escolher outros analisadores para processamento de dados). E combinado com o SeimiAgent, ele resolve completa e perfeitamente o problema de renderização e rastreamento dinâmico complexo de páginas.

Exibição do SeimiCrawler (estrutura do rastreador Java)

Expandir

Informações adicionais

Versão v0
Tipo Sistema CMS
Data da Última Atualização 2022-05-21
tamanho 15MB

Aplicativos Relacionados

sonda jsp v2016

2022-05-22
Código-fonte do sistema escolar on-line de código aberto Yinku v2.0.6

2022-05-19
SiteServer v3.4.4 para .net1.1

2024-11-14
Ext JS v3.1.1

2022-05-31
Código do plug-in de desenvolvimento do plug-in tinyMCE destacando v1.0

2022-05-31
ExtJS v3.0.0

2022-05-30

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
sonda jsp v2016

Sistema CMS

v0
Código-fonte do sistema escolar on-line de código aberto Yinku v2.0.6

Sistema CMS

v0
SiteServer v3.4.4 para .net1.1

Sistema CMS

3.4.4
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos