Características:
*******************************************
1. Desarrollado usando asp.net y ejecutado bajo IIS.
2. Se puede conectar automáticamente al sistema del sitio web existente de acuerdo con la configuración de almacenamiento y se puede integrar perfectamente con el sistema existente para complementar o reemplazar el programa de recolección del sistema existente.
3. La programación de recopilación, es decir, las tareas programadas, pueden establecer una hora para que cada regla de recopilación se recopile repetidamente a una hora programada. Se pueden ejecutar varias tareas de recopilación al mismo tiempo. Cuando se alcanza la hora establecida, el programa de recopilación se ejecuta automáticamente. ejecutado en segundo plano del servidor web, realizándose realmente la necesidad de intervención manual.
4. Puede clasificar automáticamente la información recopilada. Cuando la clasificación de destino no existe, la clasificación se puede crear automáticamente. La clasificación de destino también se puede fusionar con la clasificación de contenido del sitio web actual mediante el mapeo de clasificación. No es necesario crear una tarea de recopilación para cada categoría.
5. La configuración de la regla de recopilación es simple y fácil de entender. El programa tiene dos modos de ejecución, ejecución en primer plano o ejecución programada en segundo plano.
6. Puede realizar una recopilación profunda de páginas web de varios niveles, como paginación de contenido, información parcial en otras páginas, serialización de novelas y otros tipos de recopilación de información mediante asociación de tablas maestro-esclavo.
7. Recopilación de currículums del punto de interrupción original. El programa de recopilación solo recopila cuando se actualiza el sitio web de destino y solo recopila la parte actualizada, lo cual es muy eficiente. Esta función es particularmente útil para recopilar sitios web serializados, como novelas serializadas, series de televisión, etc.
8. Descargue automáticamente archivos externos relevantes al servidor local o reemplácelos con rutas remotas, como imágenes, FLASH, archivos de descarga, etc., sin cargarlos manualmente en el servidor.
9. Admite la definición de modelos de recopilación. Puede definir cualquier elemento de datos que se recopilará según sea necesario. Cada modelo también puede contener submodelos.
10. Identifique automáticamente los códigos de páginas web de la mayoría de los sitios de recopilación. Por ejemplo, los más comunes: GB2312, GBK, UTF-8, windows-1252, iso646-us, etc.
11. Admite la recopilación de miniaturas y otra información adicional de la página de lista.
12. Recolección asincrónica de subprocesos múltiples, alta eficiencia de recolección y bajo consumo de recursos del servidor.
v1.5.4
Mejora: se solucionó el problema por el cual el número de cola de URL de recopilación excede 5000 y no se puede detener al reiniciar automáticamente 2008-2-29
Mejora: en la configuración de filtrado avanzado de elementos de colección, se puede realizar el reemplazo. El formato es agregar "[a]" después de la regla de filtrado original 2008-2-29
Agregado: Se agregó la configuración del intervalo de tiempo de recolección para evitar ejercer mayor presión sobre el servidor de la estación de recolección. Agregado: Se agregó la situación en la que el sitio web de recolección necesita verificación de inicio de sesión; el inicio de sesión y la dirección de verificación deben configurarse 2008-3-1
Agregado: lista de paginación del método de envío JS (publicación). Uso: agregue el parámetro "?fc_action=post¶meter 1={$pageid}" a la dirección de envío. Si la página de envío ya contiene "?", será: "&fc_action=post¶meter 1={$pageid}" 2008-3. -1