Cómo evitar que las páginas del sitio web se rastreen repetidamente

Autor：Eve Cole Fecha de actualización：2011-12-22 17:49:16

Al observar y analizar los registros del sitio web, encontramos que muchas páginas del sitio web fueron rastreadas repetidamente por arañas, lo que no es muy bueno para la optimización del sitio web. Entonces, ¿cómo evitamos que las arañas rastreen repetidamente las páginas de un sitio web?

1. Utilice el archivo robots para bloquear esta página. El método específico es el siguiente:

Disallow: /page/ #Restringir el rastreo de la paginación de WordPress. Si necesita revisar su sitio web, también puede escribir las siguientes declaraciones juntas para evitar demasiadas páginas duplicadas. * No permitir: /category/*/page/* #Restringir el rastreo de paginación de categorías* No permitir:/tag/ #Restringir el rastreo de páginas de etiquetas* No permitir: */trackback/ #Restringir el rastreo de contenido de Trackback* No permitir:/category /* #Restringir el rastreo de todas las listas de categorías ¿Qué es una araña? También se le llama rastreador. En realidad, es un programa. La función de este programa es leer información capa por capa a lo largo de la URL de su sitio web, realizar un procesamiento simple y luego enviarla al servidor backend para un procesamiento centralizado. Debemos comprender las preferencias de las arañas para optimizar mejor el sitio web. A continuación hablemos del proceso de trabajo de las arañas.

2. Spider encuentra páginas dinámicas

Las arañas enfrentan problemas al procesar información dinámica de páginas web. Las páginas web dinámicas se refieren a páginas generadas automáticamente por programas. Ahora que Internet está desarrollado, hay cada vez más lenguajes de secuencias de comandos para el desarrollo de programas y, de forma natural, se desarrollan cada vez más tipos de páginas web dinámicas, como jsp, asp, php y otros lenguajes. A las arañas les resulta difícil procesar páginas web generadas por estos lenguajes de programación. Al optimizar, los optimizadores siempre enfatizan en no usar código JS tanto como sea posible. Para manejar perfectamente estos lenguajes, las arañas necesitan tener sus propios scripts. Al optimizar el sitio web, reduzca algunos códigos de script innecesarios para facilitar el rastreo de arañas y evitar el rastreo repetido de la página.

3. El tiempo de la araña

El contenido del sitio web cambia con frecuencia, ya sea mediante actualizaciones o cambios de plantilla. Las arañas también actualizan y rastrean constantemente el contenido de las páginas web. Los desarrolladores de Spider establecerán un ciclo de actualización para el rastreador, lo que le permitirá escanear el sitio web de acuerdo con el tiempo especificado para ver y comparar qué páginas deben actualizarse, como por ejemplo: Página de inicio. Si se ha cambiado el título, qué páginas son páginas nuevas en el sitio web, qué páginas son enlaces inactivos que han caducado, etc. El ciclo de actualización de un motor de búsqueda potente se optimiza constantemente, porque el ciclo de actualización del motor de búsqueda tiene un gran impacto en la tasa de recuperación del motor de búsqueda. Sin embargo, si el ciclo de actualización es demasiado largo, la precisión de la búsqueda y la integridad del motor de búsqueda se reducirán y algunas páginas web recién generadas no se podrán buscar; si el ciclo de actualización es demasiado corto, la implementación técnica será más difícil y; El ancho de banda se verá afectado, provocando un desperdicio de recursos del servidor.

4. La estrategia de rastreo no repetido de Spider

La cantidad de páginas web en el sitio web es muy grande y el rastreo de arañas es un proyecto enorme. Descifrar páginas web requiere mucho ancho de banda, recursos de hardware, recursos de tiempo, etc. Si la misma página web se rastrea repetidamente, no solo reducirá en gran medida la eficiencia del sistema, sino que también causará problemas como una baja precisión. Por lo general, los sistemas de motores de búsqueda han diseñado una estrategia para no rastrear páginas web repetidamente. Esto es para garantizar que la misma página web se rastree solo una vez dentro de un período de tiempo determinado.

Esta es la introducción sobre cómo evitar el rastreo repetido de las páginas del sitio web. El artículo está editado por Global Trade Network.

Editor en jefe: Chen Long Autor Espacio personal de planificación SEO de Fuzhou