21世紀網路的快速發展讓人們生活越來越便利,當日益劇增的大量資訊讓我們眼花撩亂時,搜尋引擎的出現可以讓我們快速找到自己想要的答案。因此多了解搜尋引擎的分詞演算法,可以讓網站在搜尋引擎上獲得更好的展現機會。在講解中文分詞技術之前,先來了解下全文檢索技術。
全文檢索技術
全文檢索是指索引程式掃描文章中的每個字詞並建立對應索引,記錄該字出現的位置和次數。當透過搜尋引擎查詢時,檢索程式會在記錄的索引進行尋找並傳回給使用者。全文檢索又分為基於字的全文索引和基於字的全文索引。以字為基礎的全文索引會對內容中的每個字建立索引並記錄,此方法查全率高,但查準率低,特別是對於中文,有時搜尋馬克,會列出馬克思的結果。基於字的全文索引是把一個字詞當作一個單位來索引記錄,並且能處理同義詞。搜尋引擎有自己的詞庫,當使用者搜尋時,搜尋引擎會從詞庫中抽取關鍵字作為索引項,這樣可以大幅提高檢索的準確率。
中文分詞技術
一直以來大家都比較熟悉百度,百度有自己的中文分詞技巧。一般採用的包括正向最大匹配,反向最大匹配,最佳匹配法,專家系統方法等。其中最大正向匹配是最常用的分詞解決方案,它採用機械式演算法,透過建立字典並進行正向最大匹配對中文進行分詞。舉個簡單的例子比如搜尋“北京大學在哪裡”,則返回結果很多都是包含北京大學,北大等詞語的網頁,搜尋引擎就是採用正向最大匹配去判斷,把北京大學當做一個詞語來索引記錄並返回。當然,正向最大匹配也有不完整性,例如長長的詞語,搜尋引擎有時無法準確的分詞,或是對前後都相互關聯的詞無法準確分詞。例如“結合成分子時”,會被返回結合、成分、子時,而有時我們想要的關鍵字是“分子”。
很多時候百度都會根據自己詞庫中詞語的權重進行拆分,權重的計算是基於生活各個方面,比較複雜,搜尋引擎要做的就是返回用戶最想要的結果,有時站長們做網站要站在使用者的角度去考慮問題,其實這也是站在搜尋引擎的角度考慮問題,不論在確定目標關鍵字或是長尾關鍵字時,都可以根據中文分詞的原理來選擇,這樣可以最大化的減少無用功。
分詞原理不斷在變化,不斷在更新,我們應該繼續學習,只有掌握了本質才能抓住實質。
本文出自深圳網站建設,原文地址: http://www.68160.com ,歡迎大家和我交流,以後關於更多分詞技術,特別是中文分詞技術的更多應用我會陸續和大家分享。
感謝深圳網站建置的投稿