Будьте осторожны, чтобы файл robots.txt не блокировал сканирование ссылки.

Автор：Eve Cole Время обновления：2009-06-05 22:45:04

Мы знаем, что большое количество веб-мастеров ищут способ запретить паукам сканировать страницы своих веб-сайтов, и они также делают это с помощью файла robot.txt. Хотя это действительно хорошая практика, проблема также возникает: путаница при использовании файла robot.txt для предотвращения сканирования Google/Yahoo!/MSN или некоторых других поисковых систем. Вот краткое объяснение:

Запретить сканирование через Robots.txt: некоторые URL-адреса не хотят быть доступными, но их все равно можно сканировать и отображать на страницах результатов поисковых систем.

Заблокировано NoIndex мета-тега: к нему можно получить доступ, но он не хочет сканироваться и не хочет отображаться в результатах поиска.

Заблокируйте, отключив сканирование ссылок на странице: это не очень разумный шаг, поскольку есть другие ссылки, которые все равно захотят сканировать страницу, чтобы проиндексировать ее (если вас это не волнует, это приведет к потере пауков на вашей странице). Вы также можете сделать это, если хотите увеличить время поиска, но не думайте, что это предотвратит его появление на странице результатов поисковой системы)

Вот простой пример. Хотя сканирование пауками ограничено в файле robot.txt, оно все равно будет отображаться в результатах поиска Google.

(файлы robot.txt также действительны для субдоменов)

Мы видим, что файл /library/nosearch/ сайта about.com заблокирован. На следующем рисунке показаны результаты поиска URL-адреса в этом файле в Google:

Обратите внимание, что Google по-прежнему имеет 2760 результатов поиска в так называемых организованных категориях. Они не сканировали эти страницы, поэтому видели только простой адрес ссылки, без описания и заголовка, поскольку Google не мог видеть содержимое этих страниц.

Давайте далее представим, что если у вас есть большое количество веб-страниц, которые вы не хотите сканировать поисковыми системами, эти URL-адреса все равно будут учитываться и накапливать трафик и другие неизвестные независимые факторы ранжирования, но они не смогут отслеживать link, поэтому ссылки, вытекающие из них, никогда не будут видны, см. изображение ниже:

Вот два удобных метода:

1. Сохраните этот трафик ссылок, используя команду nofollow при ссылках на запрещенные каталоги в robot.txt.

2. Если вам известны фиксированные потоки ссылок на этих запрещенных страницах (особенно те, которые ведут по внешним ссылкам), вы можете рассмотреть возможность использования мета-индекса и перехода вместо этого, чтобы пауки пропускали эти потоки ссылок, чтобы сэкономить время на поиск большего количества страниц. ваш сайт, которому это нужно!

Эта статья взята из блога онлайн-продвижения Reamo Personal SEO Technology: http://www.aisxin.cn. При перепечатке указывайте источник.