蜘蛛"(Spider)是Internet上一種很有用的程序,搜尋引擎利用蜘蛛程式將Web頁面收集到資料庫,企業利用蜘蛛程式監視競爭對手的網站並追蹤變動,個人使用者用蜘蛛程式下載Web頁面以便脫機器使用,開發者利用蜘蛛程式掃描自己的Web檢查無效的連結…對於不同的用戶,蜘蛛程式有不同的用途。
蜘蛛是一種半自動的程序,就像現實當中的蜘蛛在它的Web(蜘蛛網)上旅行一樣,蜘蛛程式也按照類似的方式在Web連結織成的網路上旅行。蜘蛛程式之所以是半自動的,是因為它總是需要一個初始鏈接(出發點),但此後的運行情況就要由它自己決定了,蜘蛛程式會掃描起始頁麵包含的鏈接,然後訪問這些鏈接指向的頁面,再分析追蹤那些頁麵包含的連結。從理論上,最終蜘蛛程式會訪問到Internet上的每一個頁面,因為Internet上幾乎每一個頁面總是被其他或多或少的頁面引用。
本文介紹如何用C#語言建構一個蜘蛛程序,它能夠把整個網站的內容下載到某個指定的目錄,程式的運作介面如圖一。你可以方便地利用本文提供的幾個核心類別來建構出自己的蜘蛛程式。
更多內容請閱讀:http://info.codepub.com/2008/03/info-18319.html
展開