Caractéristiques:
*****************************************
1. Développé en utilisant asp.net et exécuté sous IIS.
2. Il peut être automatiquement connecté au système de site Web existant en fonction des paramètres d'entreposage et peut être intégré de manière transparente au système existant pour compléter ou remplacer le programme de collecte du système existant.
3. La planification de la collecte, c'est-à-dire les tâches planifiées, peut définir une heure pour que chaque règle de collecte collecte à plusieurs reprises à une heure planifiée. Plusieurs tâches de collecte peuvent être exécutées en même temps. Lorsque l'heure définie est atteinte, le programme de collecte est automatiquement exécuté. exécuté en arrière-plan du serveur Web, réalisant véritablement la nécessité d'une intervention manuelle des mises à jour automatiques.
4. Il peut classer automatiquement les informations collectées. Lorsque la classification cible n'existe pas, la classification peut être automatiquement créée. La classification cible peut également être fusionnée avec la classification actuelle du contenu du site Web via le mappage de classification. Il n'est pas nécessaire de créer une tâche de collecte pour chaque catégorie.
5. Le paramètre de règle de collecte est simple et facile à comprendre. Le programme dispose de deux modes d'exécution : exécution au premier plan ou exécution planifiée en arrière-plan.
6. Il peut réaliser la collecte approfondie de pages Web à plusieurs niveaux, telles que la pagination de contenu, des informations partielles sur d'autres pages, une nouvelle sérialisation et d'autres types de collecte d'informations avec association de table maître-esclave.
7. Collecte de reprise du point d'arrêt d'origine, le programme de collecte ne collecte que lorsque le site Web cible est mis à jour et ne collecte que la partie mise à jour, ce qui est très efficace. Cette fonction est particulièrement utile pour collecter des sites Web sérialisés, tels que des romans sérialisés, des séries télévisées, etc.
8. Téléchargez automatiquement les fichiers externes pertinents sur le serveur local ou remplacez-les par des chemins distants, tels que des images, FLASH, des fichiers téléchargés, etc., sans les télécharger manuellement sur le serveur.
9. Prend en charge la définition de modèles de collecte. Vous pouvez définir tous les éléments de données à collecter selon vos besoins. Chaque modèle peut également contenir des sous-modèles.
10. Identifiez automatiquement les codes des pages Web de la plupart des sites de collecte. Par exemple, les plus courants : GB2312, GBK, UTF-8, windows-1252, iso646-us, etc.
11. Prise en charge de la collecte de vignettes et d'autres informations supplémentaires à partir de la page de liste.
12. Collecte asynchrone multithread, efficacité de collecte élevée et faible consommation de ressources du serveur.
v1.5.4
Amélioration : Correction du problème selon lequel le numéro de file d'attente de l'URL de collecte dépasse 5 000 et ne peut pas être arrêté lors du redémarrage automatique du 29/02/2008.
Amélioration : Dans les paramètres de filtrage avancés des éléments de collection, le remplacement peut être effectué. Le format consiste à ajouter "[to]" après la règle de filtrage d'origine 2008-2-29
Ajouté : Ajout du paramètre d'intervalle de temps de collecte pour éviter d'exercer une plus grande pression sur le serveur de la station de collecte. Ajout : Ajout de la situation dans laquelle le site Web de collecte nécessite une vérification de connexion, l'adresse de connexion et de vérification doit être définie sur 2008-3-1.
Ajouté : pagination de la méthode de soumission de liste JS (Post). Utilisation : ajoutez le paramètre "?fc_action=post¶meter 1={$pageid}" à l'adresse de soumission si la page de soumission contient déjà "?", ce sera : "&fc_action=post¶meter 1={$pageid}" 2008-3. -1