La versión general del sistema de recopilación de datos del sitio web de Yide es un sistema que recopila datos de sitios web seleccionados escribiendo o descargando reglas. Puede recopilar datos de la mayoría de los sitios web y guardar archivos de imágenes. Es una herramienta de recopilación de datos indispensable para la creación de sitios web. Además, el recopilador es un código fuente abierto con anotaciones en chino, lo que facilita su modificación y aprendizaje. El sistema de recolección tiene las siguientes características:
Lenguaje convencional: escrito en php + mysql, simplemente instale el servidor correspondiente.
Código completamente abierto: código fuente abierto y el código tiene comentarios en chino para facilitar la gestión, el aprendizaje y la comunicación.
Personalización de reglas: las reglas de recopilación se pueden personalizar y se puede recopilar la mayor parte del contenido del sitio web.
Modificación de datos: personalice las reglas de modificación y optimice el contenido de los datos.
Guardado de datos: en forma de matriz, los datos serializados se guardan en archivos o bases de datos para cargarlos y llamarlos fácilmente.
Lectura de imágenes: puede leer imágenes de contenido y guardarlas localmente.
Control de codificación: convierta la codificación, puede guardar gb2312, gbk y otras codificaciones en utf-8.
Limpieza de etiquetas: puede personalizar las etiquetas retenidas y limpiar etiquetas innecesarias.
Rendimiento de seguridad: la lectura se controla mediante contraseña y la lectura remota también es segura.
Operación simple: operación de lectura con un solo clic, puede leer en grupos de acuerdo con las reglas, o leer especificando una ID de regla y leer con una única ID.
Agrupación de reglas: lea datos según grupos de reglas y actualice los datos recopilados de manera oportuna.
Lectura personalizada: lectura de datos según identificadores de reglas personalizados, lo cual es más efectivo y oportuno.
Lectura JS: utilice js para controlar el tiempo de lectura y reducir la carga del servidor.
Control de tiempo de espera: el tiempo de ejecución de la página se puede configurar para reducir los errores de tiempo de espera.
Lecturas múltiples: puede configurar múltiples controles de lectura para que las páginas web lean datos de manera más eficiente.
Control de errores: si se producen errores varias veces, se puede detener la lectura para reducir el uso de recursos del servidor.
Control de carga: guarde datos en varias carpetas, lo que puede resolver eficazmente la carga del servidor en varios archivos.
Modificación de datos: no solo puede explorar los datos, sino que también puede modificar los datos principales.
Análisis de reglas: puede compartir sus reglas con otras personas para que más personas puedan usarlas.
Descarga de reglas: descargue reglas para compartir y obtenga rápidamente el contenido que necesita.
Expandir