Encontrará un archivo robots.txt en el FTP de muchos sitios web. Muchos webmasters solo saben que se trata de un archivo que restringe el acceso de las arañas. ¿Tiene este archivo otras funciones?
¿Qué es un archivo robots? Este archivo es un puente de comunicación entre los motores de búsqueda y los sitios web. Es un archivo de sintaxis acordado entre los dos. Cada vez que un motor de búsqueda rastrea un sitio web, primero verificará este archivo, al igual que la clave. puerta. Lo mismo. Si este archivo no existe, significa que el rastreo del motor de búsqueda no está restringido. Si este archivo existe, se rastreará según los requisitos especificados en el archivo. Algunos webmasters pueden preguntar: cuando creamos un sitio web, definitivamente necesitamos que los motores de búsqueda lo indexen, entonces, ¿por qué deberíamos restringir su rastreo? Los motores de búsqueda buscarán en todo el sitio durante el proceso de rastreo y es posible que haya algo de contenido en su sitio. sitio web que recopiló cosas, o páginas similares sin contenido sustancial, la evaluación de su sitio web se reducirá considerablemente después de que el motor de búsqueda lo rastree y no tendrá un efecto SEO. Sin embargo, el archivo robots puede informarle a la araña. a qué páginas no quiere que vaya. También reduce indirectamente la carga en el servidor.
Hay varias cosas a tener en cuenta sobre este archivo:
1. El nombre del archivo no puede estar escrito incorrectamente y debe estar en minúsculas y el sufijo debe ser .txt.
2. El archivo debe colocarse en el directorio raíz del sitio web, como por ejemplo: http://www.taofengyu.com/robots.txt , y debe ser accesible.
3. La sintaxis del contenido del archivo debe ser correcta. Generalmente, se utilizan comúnmente User-agent y Disallow:
Agente de usuario:* significa que todas las arañas de los motores de búsqueda pueden rastrear e incluir. Si no desea que Baidu incluya su sitio web, reemplace * con "baiduspider", entonces Baidu no rastreará ni incluirá el contenido restringido por Disallow. arañas incluidas. Si desea restringir el rastreo de todo el sitio, entonces el archivo Disallow debe escribirse como "Disallow:/". Si desea restringir el rastreo de los archivos de una determinada carpeta, escríbalo como "Disallow:/admin". /". Si desea restringir el rastreo de archivos que comienzan con admin, escriba "Disallow:/admin", etc. Quiere restringir el rastreo de archivos en una carpeta determinada. Por ejemplo, desea restringir el rastreo de archivos index.htm en la carpeta de administración, luego la sintaxis Disallow se escribe como "Disallow:/admin/index.htm". Si no hay "/" después de No permitir, significa que se permite rastrear e incluir todas las páginas del sitio web.
Generalmente, no es necesario que las arañas rastreen los archivos de administración en segundo plano, las funciones del programa, los archivos de bases de datos, los archivos de hojas de estilo, los archivos de plantilla, algunas imágenes del sitio web, etc.
4. La función Disallow debe existir en el archivo robots, que es un factor clave para el establecimiento de este archivo.
Se trata de la importancia y los métodos de los archivos robots. Espero que pueda ser de alguna utilidad para todos.
El artículo proviene de Taofengyu Student Supplies Network http://www.taofengyu.com/ Indique la fuente al reimprimir y respete el trabajo del autor.
El espacio personal del autor para juguetes infantiles en Taobao.