一般來說,一個詞語或短語能否成為文章的關鍵字,主要取決於這個詞語或短語反應文章中心思想能力的大小。關鍵字與文章之間的相關性,也主要是為了說明任選的一個字詞和片語,對於指定的文章,它反應這篇文章的中心思想或主題意思的能力有多少。關鍵字的抽取受到字詞在文章中出現的位置,出現的頻率以及字詞的語意特徵的影響。那麼,搜尋引擎到底是如何判斷關鍵字與文章的相關性呢?在這裡,筆者從自己的一些觀點出發,產生了一些想法,應該拋磚引玉,得到大家的指點。
個人認為,搜尋引擎應該是從以下幾步來如何分析關鍵字和文章性的:
第一:搜尋引擎首先將要分析的網頁進行淨化處理
網頁淨化主要是去掉網頁中大量無用的廣告、導覽列等網頁模板雜訊以及無意義的內容,如javaScript腳本,CSS標記等內容。至於搜尋引擎採用的是何種演算法,則不為我們所知,但是個人估計應該是對網頁進行劃分為不同的快,透過衡量網頁區塊的重要程度來判斷出包含主題內容的區塊,然後提取出該區塊的內容,至於搜尋引擎如何判別網頁快的重要程度,那是另一個課題。
第二:針對擷取的內容進行分詞處理
個人認為,搜尋引擎可能採用了某種演算法,對內容先進行了詞語粗分階段,先得出N個機率最大的切分結果;然後,利用角色標註方法識別未登錄詞,併計算其機率,將未登錄詞加入切分詞圖中,之後視其為普通詞處理,最終進行動態規劃優選出N個最大機率切分標註結果。並進行記錄。
第三:對初步分詞的結果進行去除無意義的詞語
搜尋引擎透過對第二步的分詞結果進行分析,去除一些語氣詞和形容詞等非實意詞和一些單詞,同時還考慮到單字詞所表達的信息不夠完整也應當濾除。去除停用詞透過建立一個停用詞列表來實現。這樣,通過去除這些無意義的字之後,剩下的就是有意義的,值得分析的詞彙了。
第四:對關鍵字的權重進行確定分析
在完成對文章分詞切分和淨化工作之後,就要將文章所有關鍵字進行分析了,筆者的想法是搜尋引擎將文字表示成Ⅳ維特徵向量,每維度分量由關鍵字及其權重組成。一般認為,關鍵字在文中的權重的決定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對詞語或短語的影響可以透過確定的演算法加以確定,詞義權重也有固定的演算法進行分析計算。搜尋引擎利用設定好的演算法對上述關鍵字進行了計算和分析。從而得到最後的結果。
筆者認為,搜尋引擎透過上面的步驟進行分析後,得到最後的結果,而筆者在這裡談談自己對搜尋引擎具體的分析方式,只是個人見解:
第一:搜尋引擎基於關鍵字位置的權重
在文件中,關鍵字的位置對於搜尋引擎判斷某個關鍵字在頁面的權重起到很重要的作用。例如網域被搜尋引擎認為是網站最固定的因素,例如:網域裡面含有DVD關鍵字的域名,在使用者檢索關鍵字DVD的時候有先天的優勢。標題是網站的最寶貴的資源,搜尋引擎認為標題是在瀏覽器標題欄里而顯示,因為要顯示給用戶,所以它是文件最重要和最簡潔的摘要。適當突出關鍵字在標題的比重非常有利於排名的提高。
第二:搜尋引擎基於關鍵字出現的頻率
網頁中不同關鍵字的總數,這是一個很重要的面向。個人認為雖然關鍵字出現的位置和詞頻大小對關鍵字權重影響很大,但是詞頻大並不能決定該詞語適合作為關鍵字。舉個簡單的例子,我們在一篇文章中對「美國''進行優化,出現的詞頻很大,出現的位置也很重要,但是這個詞還是不能賦予較高的權重,因為「美國''也廣泛的出現在其他的文獻中,在這些文獻中,「美國「也存在頻率大和所在位置也比較重要。因此,對那些詞頻較高但又不適合作為關鍵字的詞語賦予的權重應該較低。
第三:文件中重要關鍵字之間的距離
個人分析,文件中重要關鍵字之間的距離應該也是衡量關鍵字與文章的相關性的重要面向。
筆者認為,搜尋引擎在進行以上一系列的處理之後,從而針對這個關鍵字給該文章一定的評分,當用戶搜尋某個關鍵字時,該評分高的文章排在前面的機會就大很多,當然這是排除了外鏈的影響。以上是個人對搜尋引擎的一些觀點,不一定正確,希望能和大家一起學習,最後,文章版權歸屬:廣州人流醫院: http://www.gzrlw.net/ ,歡迎大家轉載,但請大家轉載的時候保留鏈接,謝謝大家的理解和合作!
感謝siyi8473 的投稿