盧鬆鬆：如何正確進行數據分析

作者：Eve Cole 更新時間：2010-12-03 18:32:06

先給大家看幾則關於網路的新聞，第一條是百度網頁搜尋份額達到73.2%，百度處理了1096億條網頁搜尋請求，與去年相比提升了0.6個百分點。報告發布後，有出現了很多部落格就根據這個數字來攻擊Google，說它做的不好。

來看第二條，還是同一份數據，裡面提到百度搜尋請求提升了0.5個百分點，google搜尋請求提升了3.5個百分點，google成為成長最快的搜尋引擎。

這兩個新聞都用了數據，而且是一樣的數據，但如果只看第一條和第二條後得出的結論是截然不同的。那看第三條，同樣是關於市場佔有率的數據，百度市佔率下降2.1%，google增加5.6，二者差距縮小至7.7%。同樣的幾條新聞看下來，都是和搜尋引擎市場份額相關的數字，但如果是一個對搜尋引擎市場不熟悉的人看到，最後就會得出一個非常混亂的結論。

為什麼三篇新聞引用了同樣的數據卻得到了不同的結果？下面盧鬆鬆來解析下關於如何分析資料的幾個原則。

第一，獨立的看一個數據是沒有意義的。

接著上面的講，百度和google市佔率問題，在第一則新聞說到百度市佔率上升0.6%，給人感覺是百度上升，自然而然就暗示百度上升、 google下降。第二條報導比較全面，它的意義是其他搜尋引擎份額都在下降，google和百度都在成長，而且google成長的更快。這說明我們不能孤立的看一個數字。

在例如把搜狐和新浪全放在一起對比的話，會很不合理，搜狐有網遊、無線、廣告，而新浪主要是無線和廣告，3:2顯然不合理，單獨拉出來比較才有比較合理的。

第二，數據的口徑必須有可比性。

對於本文前面提到的搜尋引擎市場份額的例子，有的按搜尋請求來定義，有的按收入來定義，把不同的數據放在一起比是沒意義的。如果一個數據不能自然而然的看出來，就應該看下他的定義。即使同樣的定義，不同的公司來做，得到的結果也不盡相同。重要的是我們一定要保證口徑一致的前提下進行比較。

第三，數據收集方式的差異

各個網站上經常出現熱點事件報道後的調查，例如360和QQ你選擇卸載誰的調查，其實結果往往不能反映真實情況，因為一般而言，只有對這個新聞關心的人才來表達如何看新聞，才來投票，用他們的投票結果來代表整體的意見，從而引導另一批不明真相的群眾跟隨主流觀點。網路調查的結果很容易被廠商利用，用以宣傳自己抨擊對手。

因此，對一個數字，最好多問幾個問題。碰到一個數字時最好不好直接拿出來用，首先應該清楚數據的來源是哪裡，它透過什麼方式獲得的，這個數據的含義、定義是什麼，是否有什麼遺漏的地方。就像之前搜尋引擎市佔率的例子，看懂是哪部分份額、以什麼為標準，之後才能得出正確的結論。

原文請註明轉載自盧鬆鬆博客

感謝盧松鬆的投稿