先給大家看幾則關於網路的新聞,第一條是百度網頁搜尋份額達到73.2%,百度處理了1096億條網頁搜尋請求,與去年相比提升了0.6個百分點。報告發布後,有出現了很多部落格就根據這個數字來攻擊Google,說它做的不好。
來看第二條,還是同一份數據,裡面提到百度搜尋請求提升了0.5個百分點,google搜尋請求提升了3.5個百分點,google成為成長最快的搜尋引擎。
這兩個新聞都用了數據,而且是一樣的數據,但如果只看第一條和第二條後得出的結論是截然不同的。那看第三條,同樣是關於市場佔有率的數據,百度市佔率下降2.1%,google增加5.6,二者差距縮小至7.7%。同樣的幾條新聞看下來,都是和搜尋引擎市場份額相關的數字,但如果是一個對搜尋引擎市場不熟悉的人看到,最後就會得出一個非常混亂的結論。
為什麼三篇新聞引用了同樣的數據卻得到了不同的結果?下面盧鬆鬆來解析下關於如何分析資料的幾個原則。
第一,獨立的看一個數據是沒有意義的。
接著上面的講,百度和google市佔率問題,在第一則新聞說到百度市佔率上升0.6%,給人感覺是百度上升,自然而然就暗示百度上升、 google下降。第二條報導比較全面,它的意義是其他搜尋引擎份額都在下降,google和百度都在成長,而且google成長的更快。這說明我們不能孤立的看一個數字。
在例如把搜狐和新浪全放在一起對比的話,會很不合理,搜狐有網遊、無線、廣告,而新浪主要是無線和廣告,3:2顯然不合理,單獨拉出來比較才有比較合理的。
第二,數據的口徑必須有可比性。
對於本文前面提到的搜尋引擎市場份額的例子,有的按搜尋請求來定義,有的按收入來定義,把不同的數據放在一起比是沒意義的。如果一個數據不能自然而然的看出來,就應該看下他的定義。即使同樣的定義,不同的公司來做,得到的結果也不盡相同。重要的是我們一定要保證口徑一致的前提下進行比較。
第三,數據收集方式的差異
各個網站上經常出現熱點事件報道後的調查,例如360和QQ你選擇卸載誰的調查,其實結果往往不能反映真實情況,因為一般而言,只有對這個新聞關心的人才來表達如何看新聞,才來投票,用他們的投票結果來代表整體的意見,從而引導另一批不明真相的群眾跟隨主流觀點。網路調查的結果很容易被廠商利用,用以宣傳自己抨擊對手。
因此,對一個數字,最好多問幾個問題。碰到一個數字時最好不好直接拿出來用,首先應該清楚數據的來源是哪裡,它透過什麼方式獲得的,這個數據的含義、定義是什麼,是否有什麼遺漏的地方。就像之前搜尋引擎市佔率的例子,看懂是哪部分份額、以什麼為標準,之後才能得出正確的結論。
原文請註明轉載自盧鬆鬆博客
感謝盧松鬆的投稿