如何避免網站page的頁面重複抓取

作者：Eve Cole 更新時間：2011-12-22 17:49:16

觀察分析網站的日誌，發現網站page的頁面被蜘蛛重複抓取很多，這樣子對網站的優化並不是很好。那我們要如何避免網站頁面被蜘蛛重複的抓取呢?

一、透過robots檔案來把這個頁面來屏蔽掉，具體做法語法格式：

Disallow: /page/ #限制抓取WordPRess分頁如查你的網站有需要也可以把下面的語句一併寫上，避免出現過多的重複頁面。 * Disallow: /category/*/page/* #限制抓取分類的分頁* Disallow:/tag/ #限制抓取標籤頁面* Disallow: */trackback/ #限制抓取Trackback內容* Disallow:/category/* #限制抓取所有分類清單什麼是蜘蛛，也叫爬蟲，其實是一段程式。這個程式的功能是，沿著你的網站的URL一層層的讀取一些信息，做簡單處理後，然後回饋給後台伺服器進行集中處理。我們必需了解蜘蛛的喜好，對網站優化才能做到更好。接下來我們來談談蜘蛛的工作過程。

二、蜘蛛遇到動態頁面

蜘蛛在處理動態網頁資訊是面臨的難題。動態網頁，是指程式自動產生的頁面。現在網路發達程式開發腳本語言越來越多，自然開發出來的動態網頁類型也越來越多，如jsp、asp、php等等一些語言。蜘蛛很難處理這些腳本語言產生的網頁。優化人員在優化的時候，總是強調盡量不要採用JS程式碼，蜘蛛要完善處理這些語言，需要有自己的腳本程式。在進行網站優化，減少一些不必要的腳本程式碼，以便蜘蛛爬行抓取，少導致page頁面的重複抓取!

三、蜘蛛的時間

網站的內容經常變化的，不是更新就是改模板。蜘蛛也是不斷更新和抓取網頁的內容，蜘蛛的開發者會為爬蟲設定一個更新周期，讓其按照指定的時間去掃描網站，查看對比出哪些頁面是需要進行更新工作的，諸如：主頁的標題是否有更改，哪些頁面是網站新增頁面，哪些頁面是已經過期失效的死連結等等。一個功能強太的搜尋引擎的更新周期是不斷優化的，因為搜尋引擎的更新周期對搜尋引擎搜尋的查全率有很大影響。不過如果更新周期過長，便會使搜尋引擎的搜尋精確性和完整性降低，會有一些新生成的網頁搜尋不到;若更新周期太過於短，則技術實現難度加大，而且會對頻寬、伺服器的資源造成浪費。

四、蜘蛛不重複抓取策略

網站的網頁數量非常大，蜘蛛進行抓取是一個很大的工程，網頁的抓取需要花費非常多線路頻寬、硬體資源、時間資源等等。如果經常對同一個網頁重複抓取不但會大大的降低了系統的效率，還造成精確度不高等問題。通常的搜尋引擎系統都設計了不重複進行網頁抓取的策略，這是為了確保在一定時間內只對同一個網頁進行一次抓取。

關於如何避免網站page的頁面重複抓取就介紹到這裡，文章由環球貿易網編輯。

責任編輯:陳龍作者福州SEO策劃的個人空