欄位設定為網站建置「骨架」
第一步:規劃為先。網站的欄位設定是建站之初最為重要的步驟,因為一旦確定了欄目,網站的定位也就基本成形,如果運營一段時間後再進行修改,則會造成多方面的損失,諸如目標訪客流失、搜索引擎權重降低等。所以說在建立網站欄目的時候一定要深思熟慮,先策劃好之後再進行添加。
第二步:多加考查。確定想新增的欄位之後,還得先考查這類欄目是否受到網友歡迎,想想看,當你建立一個欄位後每天認真地維護更新,但是卻因為定位偏差導致無人問津,豈不是白白浪費時間?要了解訪客的嗜好,第一種方法是可以考查其他類似的網站來獲得靈感。另外還可以透過搜尋引擎的排行榜來獲得某個領域的關注度,從而確定欄目的定位,如百度的風雲榜就是很好的工具(圖1)。
第三步:確立定位。同樣的領域也會有不同的欄目定位,例如你準備做一個有關筆記本資訊的欄目,是介紹筆記本行業的最新資訊,還是提供筆記本的軟體下載,抑或是筆記本的導購服務呢?欄目的定位也要注意與網站統一,例如本文的例子是一個IT資訊網站,則定位就是筆記本方面的新聞內容。
巧用採集快速收集網站內容
網站建立初期往往都缺乏文章,而沒有內容是無法留住訪客的,要快速地獲得優質內容,我們可以從其他網站進行轉載。這裡我們就以數動連線為例,將上面的文章快速轉載到自己的網站。 「火車頭採集器」是一款方便實用的內容採集程序,支援擷取遠端文章以及圖片等功能,以下我們就以該軟體為例進行說明。
小提示:由於軟體是基於.NET程式架構,所以使用前必須安裝Microsoft .NET Framework 2.0元件,否則程式將無法正常運作。
第一步:建立站點新增規則
下載軟體並解壓縮後即可使用,在任務清單面板中點選右鍵,新建一個擷取站點,接著在彈出的站點新建視窗中輸入站點的名稱網址等資訊。而後切換到軟體的「整站內容規則」頁面,這是採集中最重要的一步。如果稍有設定不當就可能發生錯誤。一般的文章轉移我們需要填寫包括標題、內容、時間在內的基本資訊(圖2)。
要確定網頁的內容規則,可以開啟需要擷取的內容頁面,在瀏覽器中選擇「檢視→原始碼」檢視網頁的HTML程式碼,在程式碼中尋找標題字段,如標題開始標記是,則在軟體的標籤編輯框中輸入這兩個欄位。然後按照同樣的方式進行文章內容、作者、來源、時間等標記的查找和添加,一般我們需要對多個文章頁面進行查看核對,以避免出現標籤錯誤的情況。
如果需要同時採集網頁中的其他信息,可以點擊「添加標籤」按鈕,進行採集對象的添加,軟體不僅支援透過採集得到數據,還可以設定固定格式的數據。
小提示:初次加入資料規則時可能會覺得操作困難,但只要多試幾次並仔細研讀軟體說明文檔,理解原理後就可以很容易地進行資料規則的編寫了。
第二步:建立採集任務
在剛才新增的網站名稱上點選右鍵,選擇「從該網站新建任務」選項,將出現擷取網址選單。軟體提供了三種網址擷取模式,如果目標網站有對應的文章清單頁,則可以使用「1級連結」方式,該方式的原理是透過內容清單頁面自動偵測出內容頁面,從而進行網頁內容的擷取。
如果目標網址檔案名稱有一定的規律,我們也可以直接加入需要採集的內容頁網址。這裡我們以數動連線的新聞資訊專欄為例子說明http://news.shudoo.com/,它的列表頁面是http://news.shudoo.com/index.php?limitstart=16,我們就可以直接輸入這個位址。
任務新增完成後可先進行測試,點選軟體右下方的「開始測試網址擷取」按鈕進入測試頁面,軟體會依照剛才填寫的網址規則進行擷取,待地址搜尋完成後,可選擇任一文章進行測試。如果軟體能正常顯示所擷取頁面的內容,說明擷取規則設定成功;如果無法顯示內容,則需要重新進行規則的設定(圖3)。
第三步:採集並發佈內容
完成以上步驟後,也需要設定採集內容的發佈方式,軟體目前提供了多種內容發佈方式。既可以直接發佈到網站程式中,也可以儲存為本機檔案。如果想直接發佈到網站程式中,則需要有對應的程式發佈模組,軟體自備了若干程式模組,包括了大多數流行的文章系統。如果沒有我們需要的模組,可以到軟體官方論壇進行查找。
設定完成後,就可以採集文章並發佈到網站了,在軟體主面板中選擇需要採集的網站名稱,然後點擊面板上方的開始按鈕,軟體將自動進行內容的採集。如果需要採集的內容很多,則需要等待較長時間。等到所有的文章採集完成後,內容就會自動發布。 http://it.endto.com/hulianwang-news/就是我們透過火車頭軟體收集的示範範例。 (秋風)
註:雖然採集軟體可以方便地取得大量文章,不過在使用的時候一定要注意版權,對一些允許轉載的文章也要註明出處。