卢松松：如何正确进行数据分析

作者：Eve Cole 更新时间：2010-12-03 18:32:06

先给大家看几条关于互联网的新闻，第一条是百度网页搜索份额达到73.2%，百度处理了1096亿条网页搜索请求，与去年相比提升了0.6个百分点。报告发布后，有出现了很多博客就根据这个数字来攻击Google，说它做的不好。

来看第二条，还是同一份数据，里面提到百度搜索请求提升了0.5个百分点，google搜索请求提升了3.5个百分点，google成为增长最快的搜索引擎。

这两个新闻都用了数据，而且是一样的数据，但如果只看第一条和第二条后得出的结论是截然不同的。那看第三条，同样是关于市场份额的数据，百度市场份额下降2.1%，google增加5.6，二者差距缩小至7.7%。同样的几条新闻看下来，都是和搜索引擎市场份额相关的数字，但如果是一个对搜索引擎市场不熟悉的人看到，最后就会得出一个非常混乱的结论。

为什么三篇新闻引用了同样的数据却得出了不同的结果？下面卢松松来解析下关于如何分析数据的几个原则。

第一，独立的看一个数据是没有意义的。

接着上面的讲，百度和google市场份额问题，在第一条新闻中说到百度市场份额上升0.6%，给人感觉是百度上升，自然而然就暗示百度上升、 google下降。第二条报道比较全面，它的含义是其他搜索引擎份额都在下降，google和百度都在增长，而且google增长的更快。这说明我们不能孤立的看一个数字。

在比如把搜狐和新浪全放在一起对比的话，会很不合理，搜狐有网游、无线、广告，而新浪主要是无线和广告，3:2显然不合理，单独拉出来比较才有比较合理的。

第二，数据的口径必须有可比性。

对于本文前面提到的搜索引擎市场份额的例子，有的按搜索请求来定义，有的按收入来定义，把不同的数据放在一起比是没意义的。如果一个数据不能自然而然的看出来，就应该看下他的定义。即使同样的定义，不同的公司来做，得出的结果也不尽相同。重要的是我们一定要保证口径一致的前提下进行比较。

第三，数据收集方式的差异

各个网站上经常出现热点事件报道后的调查，例如360和QQ你选择卸载谁的调查，其实结果往往不能反映真实情况，因为一般而言，只有对这个新闻关心的人才来表达如何看新闻，才来投票，用他们的投票结果来代表整体的意见，从而引导另一批不明真相的群众跟随主流观点。网络调查的结果很容易被厂商利用，用以宣传自己抨击对手。

因此，对一个数字，最好多问几个问题。碰到一个数字时最好不好直接拿出来用，首先应该清楚数据的来源是哪里，它通过什么方式获得的，这个数据的含义、定义是什么，是否有什么遗漏的地方。就像之前搜索引擎市场份额的例子，看明白是哪部分份额、以什么为标准，之后才能得出正确的结论。

原创文章请注明转载自卢松松博客

感谢卢松松的投稿