Наблюдая и анализируя логи сайта, мы обнаружили, что многие страницы сайта неоднократно сканировались пауками, что не очень хорошо для оптимизации сайта. Так как же нам предотвратить повторное сканирование страниц веб-сайта пауками?
1. Используйте файл robots, чтобы заблокировать эту страницу. Конкретный метод заключается в следующем:
Запретить: /page/ #Ограничить сканирование нумерации страниц WordPress. Если вам нужно проверить свой веб-сайт, вы также можете написать следующие инструкции вместе, чтобы избежать слишком большого количества дублирующихся страниц. * Disallow: /category/*/page/* #Ограничить сканирование страниц категорий* Disallow:/tag/ #Ограничить сканирование страниц тегов* Disallow: */trackback/ #Ограничить сканирование содержимого Trackback* Disallow:/category /* #Ограничить сканирование всех списков категорий. Что такое паук. Его еще называют сканером. На самом деле это программа. Функция этой программы — слой за слоем считывать некоторую информацию по URL-адресу вашего веб-сайта, выполнять простую обработку, а затем передавать ее обратно на внутренний сервер для централизованной обработки. Мы должны понимать предпочтения пауков, чтобы лучше оптимизировать сайт. Далее поговорим о рабочем процессе пауков.
2. Паук встречает динамические страницы
Пауки сталкиваются с проблемами при обработке динамической информации веб-страниц. Динамические веб-страницы — это страницы, автоматически создаваемые программами. Теперь, когда Интернет развит, появляется все больше и больше языков сценариев для разработки программ, и естественным образом разрабатываются все больше и больше динамических типов веб-страниц, таких как jsp, asp, php и другие языки. Паукам сложно обрабатывать веб-страницы, созданные этими языками сценариев. При оптимизации оптимизаторы всегда стараются максимально не использовать JS-код. Чтобы идеально работать с этими языками, паукам необходимо иметь свои собственные скрипты. При оптимизации веб-сайта сократите количество ненужных кодов сценариев, чтобы облегчить сканирование пауками и избежать повторного сканирования страницы!
3. Время паука
Содержимое веб-сайта часто меняется в результате обновлений или изменений шаблонов. Пауки также постоянно обновляют и сканируют содержимое веб-страниц. Разработчики Spider устанавливают для сканера цикл обновления, позволяющий ему сканировать веб-сайт в течение заданного времени, чтобы увидеть и сравнить, какие страницы необходимо обновить, например: Домашняя страница. Был ли изменен заголовок, какие страницы являются новыми страницами на веб-сайте, какие страницы являются неработающими ссылками с истекшим сроком действия и т. д. Цикл обновления мощной поисковой системы постоянно оптимизируется, поскольку цикл обновления поисковой системы оказывает большое влияние на скорость отзыва поисковой системы. Однако если цикл обновления слишком длинный, точность поиска и целостность поисковой системы будут снижены, а некоторые вновь созданные веб-страницы будут недоступны для поиска. Если цикл обновления слишком короткий, техническая реализация будет более сложной и сложной; это повлияет на пропускную способность, что приведет к пустой трате ресурсов сервера.
4. Стратегия неповторяющегося сканирования паука
Количество веб-страниц на веб-сайте очень велико, а сканирование веб-страниц — это огромный проект. Взлом веб-страниц требует большой пропускной способности, аппаратных ресурсов, временных ресурсов и т. д. Если одна и та же веб-страница часто сканируется неоднократно, это не только значительно снижает эффективность системы, но и вызывает такие проблемы, как низкая точность. Обычно системы поисковых систем разрабатывают стратегию предотвращения повторного сканирования веб-страниц. Это делается для того, чтобы одна и та же веб-страница сканировалась только один раз в течение определенного периода времени.
Это введение о том, как избежать повторного сканирования страниц веб-сайта. Статья отредактирована Global Trade Network.
Главный редактор: Чен Лун Автор Личное пространство SEO Planning в Фучжоу