IT技术博客大学习 共学习 共进步

统计数据背后的真相 ― 读《How to lie with statistics》

Tencent CDC Blog 2010-07-12 14:32:43 浏览 3,302 次

    

      在当今互联网普及的社会中,几乎每一个人都会和统计数字接触,例如各种经济数据、证券信息、房地产投资可行性报告、公司财务报告、以及与互联网相关的各种页面数据点击量、网页流量、用户量统计、用户趋势分析报告等;数据分析正在以从未想象过的方式影响着我们的生活;然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用,相反,往往还对读者形成误导,与此同时带来的问题是越来越多的人员会通过数据造假来蒙蔽对数据知识不是特别了解的人员,从而达到他们背后的目的;所以当我们在面对这些真假难分的数据时,我们又该如何去鉴别?

      在之前读过的《How to lie with statistics》一书中提到当我们接触一个统计资料时,提5个简单的问题可分辨大部分的统计资料,分别是:谁说的,他是如何知道的,遗漏了什么,是否有人偷换了概念以及这个资料有意义吗。

     

      谁说的?

      经常会遇到利用数据图表进行问题说明的情况,这时我们往往会关注于这些数据到底是什么意思而忽略这些数据的来源和它的时效性。当遇到数据的来源是某权威人士、权威机构时,这些话往往是为了掩盖真实的资料来源。有些数据图表虽然确实引用了权威的数据,但是很有可能的是别有用心的只截取了其中的一部分数据,虽然数据是权威可信的,但结论却是自己加的,以偏概全的结果是得到与原来数据完全相反的结论。另外当在问数据来源时,一定要补上问一句这是什么时候的数据了;数据是非常具有时效性的,如果用之前的数据来解释当前的现象,也会造成错误的结论。

      比如下面这两个图表是前后相隔半年针对图片软件使用情况所做的调查,可以看到变化很大;假如我们也要做一款全新的图片软件,参考这两张不同时间的调查图表可能会导致产品定位的截然不同。

    

      所以当我们在看到一个统计图表的时候,首先要想这个图表是从哪里来的,是什么时候的图表,我们应该问一句:“谁说的?”接着我们应该接着我们还应追加第二个问题:他是如何知道的?

     

      他是如何知道的?

      主要是看这些数据是怎么得到的,也就是调查的样本是否足够大,样本是否有偏,调查的人群是否涵盖了所有的用户。

      下面是两张针对播放器用户所做的亮点功能调查,一个是样本量100的结果,一个是样本量2000的结果,在样本量不一样时结果差异会很大。

    

      在互联网产品设计中,还有一个比较常见的问题是,当遇到一个设计或者一个功能不确定时,往往会直接询问周围同事的建议,可这并不能代表整个用户,导致结果的偏差。

      还有比如在一款新产品发布时,经常会做产品的可用性测试,得到的结论是一半的用户在某个功能的操作上存在问题,也许会觉得问题挺严重,实际可能是50%背后一共测试了两个用户,其中有一个用户遇到了问题。

     

      是否遗漏了什么?

      也就是看对结论有影响的因素是否都列举出来。比如说,调查表明公司的员工平均月薪是2万,调查涵盖了公司所有员工,外界一看,哇,该公司的员工工资好高啊,其实背后的原始数据没有纰漏出来,该公司有100个员工,总经理的工资是100万,而剩下的员工平均工资是1万,一平均,就说该公司的平均月薪是2万。

      比如在做一次竞品之间的满意度调查时发现自己产品的满意度明显高于竞争产品,大家看了都觉得很开心,但是却忽略了调查的方法,实际上该调查的对象都是最常使用自己产品的用户,那结果肯定是不言而喻。

      再说满意度的问题,如果针对自己的用户进行了产品的满意度调查,结果是85分(百分制),可能觉得产品还不错,可是缺少了和竞品的比较,85分到底是怎样一个水平,不得而知,实际情况是竞品用户的满意度都是在90分以上。下面两张分别是只有自己产品的满意度和有竞品满意度的图表,效果截然不同。

    

     

      是否偷换了概念?

      在看统计资料时,从收集原始资料到得出结论的整个过程,是否存在着概念的偷换。比如在收集数据时问题问的是可支配收入,下结论说的是收入;问题问的是使用过什么产品,结论说是经常使用什么产品;实际调查只针对某几项因素,下结论时却不加定语限制,让人觉得是整体的情况描述,就似现在国内大学排名,不同机构采用不同的指标排出不同的结果,实际公布时对采用的指标只字不提,结果往往误导和迷惑读众。

      给我印象深刻的是在2008年奥运会结束后四大门户网站都对外称自己在奥运会期间的报道取得了第一,让网友摸不着头脑的同时也让业界疑虑丛生。其实导致这种结果的第一个原因是不同公司排名所采用的指标不一样,指标分别有“用户访问量”、“网页流量”、“平均每位用户停留时间”、“访问速度”、“冠军访谈数量”等,这样四大门户都可以对外声称在奥运报道上取得了第一;第二个原因是引用的数据源不一样,导致数据上的差异,甚至不同公司引用同一家调研公司的数据都是不一样的,摘录其中一段调研公司的解释:“新浪、搜狐用的是我们两次不同的调查数据,这两次调查的城市范围、方法等都不一样,两方面数据结果根本没有可比性。新浪公布的那个结果是我们在国内128个城市采取计算机辅助电话访问的调查结果,而搜狐公布的那份结果是我们在北京、上海、广州、青岛、南京5个重要城市采取街访方式的调查结果。那5个最重要的城市和其他128个城市的网络普及率、人对网络的偏好都不一样,数据结果反映的东西肯定也不同”,普通网民在关注到“第一”的同时会去关注这些背后的数据吗?

      另外就是同一个数据,但是图表的基准值、刻度等不一样,也会导致图表表达出的效果截然不同,比如下面两个图,左边第一眼给人的感觉是2名用户之间的上网时长差异不大,而右边这个给人的感觉是差异非常大。

    

     

      这个资料有意义吗?

      许多统计资料在我们一眼就能看出是有误的。比如前一阵因为BT事件,一调查机构宣称:在他们随机调查的100位网友中,有87.53%的网友支持封杀BTchina;有时在对用户进行分类时,对于分类结果,分成的各个类别的用户是否都能在现实中找到对应的人群,或者说周围认识的每一个人是否都能找到属于自己的类别,这都是一眼能够看出是否有意义的。

      最后再举一个最常见但也最经常被误导的两个例子:

      很多人在学生时代肯定都听过老师有过这样的计算:离某某考试还有1个月时间,扣去一天8小时共10天的睡眠时间,扣去一天约4小时共5天的进餐活动等时间,再扣掉每周两天共8天的双休日,这时余下的学习时间就只剩7天了,这时一听都觉得很紧张,但是感觉没有这么短啊,其实是我们被老师忽悠了;一个产品开发项目计划本来总时长是1个月,后来因为某种变更,需求规划时间要增加15%,界面设计时间要增加20%,开发的时间要增加10%,测试时间要增加5%,则总时间要增加50%?实际总时间增加肯定不到20%。

      在这个信息爆炸的时代,统计本是一个通过数据揭露本质的有力工具,但遗憾的是,统计未必能够揭示真实,有时候还可能成为假象的帮凶。当我们面对生活中形形色色的统计数据时,还要多保持一些理智和清醒,并要有所保留地看待问题。因为“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。”

建议继续学习

  1. 海量数据面试题举例 (阅读 10,825)
  2. 三种东西永远不要放到数据库里 (阅读 7,865)
  3. 获取指定(访客)IP的所有信息,地址、邮政编码、国家、经纬度等的API (阅读 6,362)
  4. 如何对统计数据进行分析 (阅读 4,983)
  5. 从数据中了解用户——数据在新产品设计中的应用 (阅读 4,303)
  6. 数据即代码,我和小伙伴们都惊呆了! (阅读 4,305)
  7. 从数据中了解用户——数据在现有产品改版设计中的应用 (阅读 4,203)
  8. 统计指标和术语汇总 (阅读 3,881)
  9. 如何确定抽样统计的最小样本量 (阅读 3,564)
  10. 我们需要什么样的网站数据 (阅读 3,403)