我們一直在批評谷歌的中英文翻譯服務,有的時候谷歌翻譯出來的東東比直接讀外語還難懂,不過谷歌翻譯質量的進步也是有目共睹的事情。
百度和Google競爭,一直強調擺渡更懂中文,這是基於百度演算法的分詞技術和精確匹配,大家也都以為然。
前天在給學生上課的時候,講到文章的命名方式,學生說我和李新剛老師(網頁教學網站長)講的有些不一樣,於是道網上驗證。結果發現原來Google更懂拼音,做個試驗如下:
搜尋“wangluoyingxiao”在百度和谷歌上面均能顯示“您要找的是不是: 網絡營銷”
搜尋“wangluoyingxiaocehua”在百度和谷歌上面均能顯示“您要找的是不是: 網路行銷策劃”
搜尋“wangluoyingxiaocehuashu”在百度和谷歌上面均能顯示“您要找的是不是: 網路行銷策劃書”
搜尋“wangluoyingxiaocehuashude”在谷歌上面顯示“您要找的是不是: 網路行銷策劃書的”,百度沒有搜尋結果。
搜尋“wangluoyingxiao-cehuashu”在谷歌上面顯示“您是不是要找: 網絡營銷-策劃書”,百度上顯示“您要找的是不是: 網絡營銷策劃書”。
搜尋“wangluoyingxiao-cehuashude”在Google上面顯示“您是不是要找: 網路行銷-策劃書的”,百度沒有搜尋結果。
至此我們可以說,Google比百度更懂拼音!為了繼續探索谷歌對拼音的支持,馮斌打算繼續做實驗,結果如下:
在搜尋欄輸入「wangluocehuawangluoyingxiaocehuajiulaiwang-yingwangluowang」(網絡策劃網絡營銷策劃就來網-贏網絡網)是谷歌支持拼音數量——17個漢字的拼音。而且必須在前13個漢字拼音後加上“-”,否則是顯示不出來的。如果把13個拼音中「xiao」分割成「xi'ao」則是顯示錯誤。
在搜尋欄輸入「wangluoyingxiaowangluoyingxiaocehuajiulaiwang-yingwangluowang」(網路行銷網路行銷策劃就來網-贏網),Google沒有搜尋結果。
在搜尋欄輸入「wangluoyingxianwangluoyingxiaocehuajiulaiwang-yingwangluowang」(網路營西安網路行銷策劃就來網-贏網)是Google支援拼音數量-18個漢字的拼音。
於是我開始懷疑谷歌的拼音支持是和字符數量還是和漢字數量相關呢?如果是支持字符數量就不能隨隨便改變拼寫,比如把最後的“wangluowang”改成“wangwangwang”仍然正常顯示。但是如果把「cehua」改成「huihua」就沒辦法顯示了。如果把「jiulai」換成「wangwang」還是可以正常顯示的。
既然把「cehua」改成「huihua」不能顯示,說明搜尋引擎可能是按照字元數量支援搜尋結果,但是「jiulai」換成「wangwang」正常顯示說明這個結果又不是按照字元支援的。反過來就是說,谷歌是按照漢字數量來支持的。但是「就來」和「往往」就是兩個漢字!那又是怎麼回事呢?
於是我做了一個瘋狂試驗,在谷歌輸入“wangluoyingxianwangluoyingxiaocehuawangwangwangwangwangwang-yingwangwangwang”( 網絡營西安網絡營銷策劃往往往往-因旺旺網)正常顯示,輸入“wangluocehuawangluoyawash”網絡策劃網絡策劃網絡營銷——無法顯示。
在百度裡面「google-zhongwen」配對結果正常顯示,搜「zhongwen123」也有結果,這說明百度還是支持詞組搭配,只不過不能太長,如「zhongwenwang123」就無法顯示。
而Google可以辨識這些,不過谷歌辨識時會依照人們常用語言去判斷詞組並加以顯示。谷歌拼音識別,是按照規則詞組進行的,如果不構成規則詞組將無法識別。經本試驗,Google拼音辨識在規則詞組拼音狀態下可以辨識最多24個漢字。