Раньше я всегда подчеркивал оптимизацию деталей. Да, текущие требования Baidu к веб-сайтам заключаются в том, чтобы проверять, хорошо ли сделаны ваши данные. Коды, теги и т. д. являются деталями, поэтому роботы также являются частью деталей веб-сайта. ну, для нас сайт очень помогает. Возможно, найдется много новых веб-мастеров, которые не знают, что такое роботы. Теперь я расскажу вам несколько моментов о работе роботов.
1. Происхождение Robots.txt
Прежде всего мы должны понимать, что Robots — это не команда или инструкция. Robots — это стороннее соглашение между веб-сайтом и поисковой системой. Содержимое соглашения — это содержимое файла Robots.txt. защита конфиденциальности на веб-сайтах. Он существует в нашем текстовом файле в корневом каталоге веб-сайта.
2. Роль Robots.txt
Когда мы запустим наш веб-сайт, поисковые системы будут создавать множество непреодолимых факторов, которые приведут к общему снижению качества наших веб-страниц и плохому впечатлению от нашего веб-сайта в поисковых системах. Роль роботов заключается в их блокировании. непреодолимые факторы. Факторы не позволяют паукам выпустить их, поэтому какие страницы нам следует заблокировать?
1. Заблокируйте некоторые страницы без контента: я приведу вам пример, чтобы было понятно, например: страница регистрации, страница входа в систему, страница покупок, страница публикации, страница сообщений, домашняя страница поиска. Если у вас есть страница с ошибкой 404, вы также должен заблокировать его.
2. Заблокируйте повторяющиеся страницы. Если мы обнаружим, что на нашем веб-сайте есть две страницы с одинаковым содержанием, но с разными путями, нам придется использовать роботов, чтобы заблокировать страницу. Паук все равно будет сканировать ее, но не опубликует. Мы можем использовать Google Webmaster. Инструменты для блокировки страницы Непосредственно проверьте количество заблокированных страниц.
3. Заблокируйте некоторые страницы с мертвыми ссылками.
Нам нужно заблокировать только страницы с общими характеристиками. Тот факт, что пауки не могут сканировать адрес, не означает, что пауки не могут сканировать адрес и можно ли его сканировать. Конечно, мы можем. справиться с этим. Нам не нужно блокировать неработающие ссылки. Например, нам нужно блокировать неработающие ссылки, вызванные нашим путем, с которыми невозможно справиться.
4. Заблокируйте некоторые более длинные пути. Мы можем использовать роботов для блокировки длинных путей, выходящих за пределы поля ввода URL-адреса.
3. Использование файла Robots.txt
1. Создание файла robots.txt
Создайте локально новый файл блокнота, назовите его Robots.txt, а затем поместите этот файл в наш корневой каталог, чтобы был создан наш Robots.txt. Некоторые программы с открытым исходным кодом, такие как Dreamweaver, поставляются с Robots, когда мы его модифицируем. нужно только скачать его из корневого каталога.
2. Общая грамматика
Синтаксис User-agent используется для определения сканеров поисковых систем. Disallow означает запрет. Разрешить значит разрешено.
Давайте сначала познакомимся со сканерами поисковых систем, которые являются пауками или роботами.
Для паука Baidu мы пишем Baiduspider в разделе «Роботы», а для робота Google — Googlebot.
Давайте познакомимся с методом записи. Наша первая задача — сначала определить поисковую систему.
Пользовательский агент: Baiduspider (Особое внимание следует обратить на то, что когда мы пишем Robots, после двоеточия должен быть пробел. В то же время, если мы хотим определить все поисковые системы, мы должны использовать * вместо Baiduspider )
Запретить: /admin/
Смысл этого предложения состоит в том, чтобы сказать Baidu Spider не включать веб-страницы в папку администратора моего веб-сайта. Если мы удалим косую черту после admin, смысл полностью изменится. папка моего сайта. Все веб-страницы в папке администратора моего корневого каталога.
«Разрешить» означает «разрешено» или «не запрещено». Вообще говоря, оно не будет использоваться отдельно с «Запретить». Целью его совместного использования является облегчение защиты каталогов и гибких приложений, а также сокращение использования кода. , возьмем / В папке SEO/ 100 000 файлов, и есть два файла, которые нужно просканировать. Мы не можем писать десятки тысяч кодов, что будет очень утомительно. Для работы нам понадобится всего несколько строк. вместе.
Пользовательский агент: *(определяет все поисковые системы)
Disallow: /seo/ (отключить включение SEO-папок)
Разрешить: /seo/ccc.php
Разрешить: /seo/ab.html
Разрешение захвата и включения этих двух файлов одновременно, чтобы мы могли решить проблему с помощью четырех строк кода. Некоторые люди могут спросить, является ли более стандартизированным размещение Disallow впереди или Allow, или Disallow. ставится спереди.
Эта статья была первоначально создана http://www.51diaoche.net. Перепечатка приветствуется. Пожалуйста, укажите автора.
Личное пространство главного редактора: Янъян Автор Longfeng Hoisting Machinery