Prend en charge la personnalisation de l'en-tête de cette requête via l'en-tête (map) dans l'objet Request et prend en charge la personnalisation des cookies via seimiCookies. Les cookies personnalisés entreront directement dans le cookieStore et seront toujours valables pour la deuxième requête dans le même domaine.
Optimisez le mode de démarrage par défaut, modifiez cn.wanghaomiao.seimi.boot.Run pour prendre en charge CommandLineParser, vous pouvez utiliser -c et -p pour transmettre les paramètres, où -c est utilisé pour spécifier les noms de robots, les multiples sont séparés par ',' et -p spécifie un port, vous pouvez démarrer de manière sélective un service http intégré et activer l'utilisation de l'interface http intégrée.
Le plug-in de packaging maven-compiler-plugin a été mis à niveau vers 1.3.0, le script sous Linux a été amélioré et le fichier de configuration de démarrage a été ajouté. Vous pouvez le consulter en détail sur la page d'accueil de maven-compiler-plugin.
Le téléchargeur par défaut est remplacé par ApacheHttpclient et la sauvegarde est l'implémentation du téléchargeur OkHttp3
Optimiser du code
Par défaut, tous les journaux de démonstration sont affichés sur la console.
Introduction à SeimiCrawler (framework de robot d'exploration Java)SeimiCrawler est un framework de robots d'exploration Java agile, déployé indépendamment et distribué. Il espère minimiser le seuil permettant aux novices de développer un système de robots d'exploration avec une haute disponibilité et de bonnes performances, et améliorer l'efficacité du développement du système de robots d'exploration. Dans le monde de SeimiCrawler, la plupart des gens n'ont qu'à se soucier d'écrire la logique métier de l'exploration, et Seimi s'occupera du reste pour vous. En termes de concept de conception, SeimiCrawler s'inspire du framework d'exploration de Python Scrapy. Il intègre également les caractéristiques du langage Java lui-même et les caractéristiques de Spring. Il espère rendre plus pratique et plus courante en Chine l'utilisation de XPath plus efficace pour analyser le HTML. , donc l'analyseur HTML par défaut de SeimiCrawler est JsoupXpath (un projet d'extension indépendant, non inclus avec jsoup) qui utilise XPath pour analyser et extraire les données HTML par défaut (bien sûr, vous pouvez également choisir d'autres analyseurs pour le traitement des données). Et combiné avec SeimiAgent, il résout complètement et parfaitement le problème du rendu et de l’exploration dynamiques complexes des pages.
Affichage de SeimiCrawler (framework de robot d'exploration Java)