如何对统计数据进行分析
最近在对过往数年工作进行回顾与总结,这次也不例外,继续放出一些个人经验上的总结与感悟。之前很多内容都是比较虚的内容,这次来个比较实在的,包含一些具体技术操作层面上的内容。
2008年、2009年的时候,在公司里曾经给大家分享过几次关于分析网站统计数据的培训,下面这篇文章中的部分内容将来自那次培训中的分享,同时也加入了一些新的内容。
-
――――――――――――――――――――-
对于统计数据,很多人都会有以下两种看法:
1. 统计数据是天使,它是所有工作的指导中心,所有的事情都可以转变为可量化的考核指标来指导工作;
2. 统计数据是魔鬼,它是消灭创造性工作的元凶,所有工作如果都按照统计数据来运转的话迟早有一天都会奔溃。
其实,对于统计数据没有必要非得这样切割清楚,更不应该是非此即彼的选择。统计数据经过认真的分析,可以为我们提供工作决策的有效帮助,这一点是毋庸置疑的。但如果凡事都依照统计数据来做事情,淹没在数据的海洋之中去追求形式,那么工作就会陷入极度的僵化之中而不可自拔。
总之一句话,数据可以帮我们做很多事情,但一定要好好对待它才行。
那,如何才能好好对待数据呢?首先,我们来看看通常情况下我们对待数据的态度吧。
某日,发现一同事QQ的签名换成了“我是表妹”。由于不是太明白这个表妹代表什么意思,于是向她发出了询问。原来这里表妹是“做数据表格的MM”的简称,而这位同事每天主要的工作就是统计各种各样网站数据,然后整理之后形成各种数据分析报告。询问过程之中,表妹对于这种数据整理工作有点点郁闷,觉得这些数据太枯燥了。无独有偶,在之后去另外一家公司参观的时候,发现这家公司负责数据整理工作的一位女员工的外号是“表姐”,不言而喻就是“做数据表格的JJ”的简称。当然,这位表姐对数据统计工作的态度也和那位表妹一样也是有一些些的小郁闷。最近,还发现了一个做表格GG,简称表哥,每次在处理一堆数据时也是要掩面的。
难道数据果真是这么的枯燥、这么的不招人待见吗?
这个问题的答案当然是否定的,数据分析工作其实可以是很快乐的,关键取决于你对它的态度。如果你觉得数据可以帮你很大的忙,无论是工作上的还是生活上的,那么你就会在寻求数据的过程中充满了期待,从而可以让整个过程充满了快乐,因为你渴望像福尔摩斯探案一样去通过分析数据而获得问题最终的答案。
数据虽然是属于过去的,但我们可以通过它们来探寻未来的趋势与秘密。
-
不得不说的世博数据
眼下世博会即将接近尾声,我想对于每个已经参观过世博会的人和每个即将参观世博会的人来说都必须要做的一个选择题就是自己准备在哪一天以及哪一个时段入园,从而可以最大限度的减少入园排队以及场馆排队的时间。这个时候,数据就可以发挥它的作用了。
世博会入园人数统计数据:http://www.expo2010.cn/yqkl/indexn.htm
首先,我们需要确定我们入园的日期,看看哪一天入园的人数相对而言会是比较少的。我们可以通过网络找出过去几个月里面,世博会每天入园人数的数据,经过简单的汇总整理,我们可以计算出入园人数的日平均、周平均、月平均等数据。当然,如果能将这些数据制作成趋势图,就可以很清楚看到世博会人流量的变化了。
从日平均数据里面,我们可以发现一周里面哪一天的人数是最少的,例如周三是一个星期里面入园人数最少的一天,而周五、周六、周日这三天则是峰值,所以尽量选择周三。当然,我们还可以从周平均的数据里面发现应该是在月初去看世博会呢,还是在月中或者月末去看。而从月平均数据里面,我们还可以得出那个月入园的人数是最少的,从而选择与之类似的月份去参观。例如7、8月份显然由于学生暑假的缘故,是入园人数最多的时段。而9月初则由于学生开学上课,则可能入园人数会是这几个月最低的时期,可以考虑在这个时期参观世博会。
选择好日期之后,我们就得考虑应该选择从哪个入口以及哪个时段入园。和上面的方法类似,我们同样需要找出过去世博会入口进园的数据来进行分析。通过这些数据我们可以很清楚的发现,半淞园入口、西藏南路入口等入园量是非常少的,可以考虑从此进入节省入园排队时间。如果获得数据足够详细的话,我们还可以把每个入口日平均、周平均乃至月平均数据都可以整理出来进行精确的锁定,我们应该在哪一天、哪一个入口入园。最后,对于入园的时段,我们同样可以采用前面的方式对过去的数据进行分析,从而得到在哪一天的哪个时段从哪个入口进园的结论。
当然,对于哪些已经铁定要参观某某场馆的人来说,上述的数据整理与分析是没有意义的,因为他们会直接选择离该场馆最近的入口进去,从而可以尽快进去参观。但对于哪些希望将节省排队时间作为第一因素来考虑的人来说(包括我),上述的这些数据分析工作是必备的功课,只不过分析的程度有深有浅而已。
相信经过你自己的计算与选择,进入世博园之后如果发现入园人数和排队时间如你所愿很少的时候,你绝对会非常快乐的。这,就是数据给你带来的快乐。
-
沪宁高铁真的是运送椅子的专列吗?
下面,再举一个通过分析数据可以帮我们解释清楚生活中疑问的例子吧。
只有一个人的沪宁高铁列车车厢
今年7月下旬,铁道部自豪的发布了一则消息,称至7月21日沪宁高铁开通运营21天时间里,累计发送旅客282万人,日均发送13.4万人,运能综合利用率120%。很快,网络上就开始流传一张沪宁高速铁路一节车厢里只有一个人的图片,质疑铁道部“运能综合利用率120%”这个数字不知道是如何计算出来,并讽刺沪宁高铁是“运送椅子的专列”。
其实,我们只要简单进行一下分析一下已有的数据,就可以知道铁道部的“120%”这个数据是如何计算出来的。通过公开的数据,我们可以查到目前沪宁高铁每天开行80对G字头高铁列车,总计160列车(包括来回对开双向的列车)。而这些列车里面的主力车型是CRH3C,其一般编组方式是4M4T,即4节动车配4节拖车,总计有8节车箱,减掉1节餐车,还剩7节,标准载员为700人左右。这样,我们就能计算出沪宁高铁实际运能是160 X 700 = 11.2万。而运能能够达到120%的,那么实际日均运送人数就能达到11.2 X 120% = 13.4万人,这个数字就和铁道部公布的数据完全一致。
搞清楚了这些数据的来龙去脉,我们再推测一下120%这个数据的由来吧。由于沪宁高铁并不是直达列车,所以沿途会停靠昆山、苏州等站点,而在这些站点停靠时会有一部分的乘车人员上车或者下车。而且,目前铁路售票都是电脑联网的,出票信息都是实时在多地同步更新的,因此很多情况下有些旅客购买的是从上海到昆山的车票,而有些旅客则是从昆山上车购买的是从昆山到苏州或者到南京的车票,如此一来一辆700人的列车就有可能售出1000张甚至更多的车票。这样就清楚了吧,原来铁道部的那个数字是这样计算出来的,这与大家很多人的计算规则存在较大差异,从而最终造成了一片质疑之声。铁道部貌似没有对这些质疑声进行过解释,因为在他们看来这些数据是报给上层领导看的,是用来完成任务交差的,而并不是给老百姓看的。
-
房价到底跌了没有呢?
最后再补充一个生活中另外一个更加鲜活的例子吧,是关于房价变化的。2010年7月12日,国家统计局公布了70个大中城市的住房价格在6月份同比上升了11.4%,与5月的12.4%的同比涨幅相比下跌了1个百分点。这个数据是否就意味着房价在调控之后开始下降了呢?
以2010年7月12日国家统计局公布了6月份70个大中城市的住房价格数据为例,这些城市的住房价格在6月份同比上升了11.4%,与5月的12.4%的同比涨幅相比下跌了1个百分点,而6月份环比涨幅则为-0.1%。这些数据是否就意味着房价在调控之后开始下降了呢?
国家统计局各项统计数据:http://www.stats.gov.cn/tjsj/
如果不清楚同比数据和环比数据的定义,请先百度一下。接下来,我们先明确一个概念,即同比数据实际上基本等于过去12个月的环比数据之和。例如房价在6月同比涨幅为11.4%,如果前11个月的环比涨幅之和为11.5%的话,那么6月份的房价环比涨幅则为-0.1%。这个数字也是国家统计局公布的6月份房价环比涨幅,在此之前的11个月中,房价环比涨幅一直为正,最高值为今年4月份的1.4%,环比涨幅超过1%的月份也达到了4个。换句话说,在过去一年时间里,房价在连续11个月的告诉上涨后,终于在6月份出现了缓慢的几乎可以认为是统计误差的环比下滑。
环比数据一般来说先行于同比数据,简单来说,如果环比数据出现上升,那么同比数据由于基数原因,将可能在几个月之后才能出现趋势性上升,反之亦然。假定未来一年时间里,房价维持目前的水平不变,那么未来一年每个月的房价环比涨幅为0,则房价同比将以每个月1个百分点下降。一年之后,房价同比涨幅为负值,但房价还是没有变化,这能说明房价下滑了吗?说到这里,是不是觉得同比、环比数据要深入研究下来还真是有很多名堂可以去说的呢?
关于这个例子,最后再说点题外话,关于房价变化的一些规律。当房价同比出现快速下滑,尽管实际房价水平保持平稳,政策决策者们都会迅速做出反应,例如放松信贷政策,于是炒房者开始进入房产市场,进而推高房产商的拿地热情,进而推高楼板价,最终形成新一轮的房价上涨。而当房价同比涨幅再度进入两位数区间时,宏观调控政策又会频繁祭出,新一轮房地产市场紧缩开始,房价进入一轮同比下降区间。房价也就如此循环往复,在大的时间周期上基本上是如此的宿命。其实,很多事情的规律也大抵如此。
-
数字化捉奸?
什么,还能通过数字来捉奸吗?当然是可以,请看下面这样一个有趣的例子(来自CTI论坛)。
有个台湾人到大陆出差,但他老婆很担心,怕他会做出什么不轨行为。于是,台湾人的老婆就说她会在每天晚上10点到11点打电话过来,确切时间不一定,但一定是晚上10点到11点之间。一旦打来电话,这个台湾人就得在20秒内接起来,也就是在20秒接通率必须是100%!这项接通率的要求果然是杀手锏,要真有什么不轨,还真没有办法在20秒内接起来。他老婆给他定了一个上限,就是20秒,只要超过20秒,她就认为发生了异常。
当然,男人都是有自尊心的,这个台湾人也不例外,他觉得老婆一打电话来,马上就把老婆电话接起来,也为免太难看了,严重影响众人对他的观感。因此他就给自己定了一个至少10秒才能接听的下限,也就是老婆每次打来,一定要响了至少10秒才能接听,这个下限的设定对男人是很重要的,因为如果老婆一旦发现原来可以很短就把电话接起来,那下次就会把上限给缩短,从20秒缩短到15秒以内,那日子就更不好过了。
上面这个图是这个台湾人从11月1日开始的半个月之内,每天晚上接听电话的应答秒数(横轴代表日期,纵轴代表接听接听电话的应答秒数)。我们可以看到在11月6日这一天,数据有些异常,台湾人花了25秒才接听电话。而到了11月11日,数据也是出现了异常,只花了8秒就把电话接起来,低于下限的设定标准。这两天这位台湾人可能存在问题,但目前还缺少必要的证据,于是他的老婆开始分析他老公的相关数据,希望能从中发现一些线索出来(这个人的老婆有可能是做数据分析师的,呵呵),于是就有了下面这张表格。
于是,这个台湾人的老婆开始密切关注他老公后续的动态。终于在12月份开始的几天里发现了持续不正常的现象,从12月5日开始连续几天他老公的数据都超过了上限数值,老婆因此决定雇佣私家侦探前往他老公出差的地方进行调查。很快,调查结果就出来了,果不其然这名侦探发现他的老公在12月5号-12月13日期间是在外面包养了二奶,于是一场家庭风暴瞬间降临。
-
戴明控制论
笑过之后,我们言归正传吧。其实上面这些图表所表现出来的理念就是所谓的戴明控制图,其主要理论就是我们从控制图中可以看到是否有特殊原因发生,因为如果控制图中的数据不再随机,就发生了特殊原因。1950年,一位名叫戴明(W.Edwards.Deming,1900年出生于美国衣阿华州,1928年获耶鲁大学数学物理学博士)的美国人到了日本,在日本工业界担任讲师和顾问,开始倡导利用控制图来进行企业管理的做法。而在此之前,戴明的理论在美国没有受到重视,因此他到了日本。这一次日本人完全接纳了他的理论,并开始在工业界大规模的施行起来。仅仅一年之后,日本就于1951年开始设立全日本最高荣誉─戴明奖,以颁发给日本企业质量最好的企业。1960年,为了表彰戴明对于日本工业界在质量管理进步方面做出的巨大贡献,日本裕仁天皇亲自给戴明颁发了二等瑞宝奖。时至今日,日本丰田公司东京总部的大厅里还悬挂着他的画像。美国一直到了1980年,才终于发现自己企业的质量已经落在日本之后,这才开始全力追赶。随后,戴明的管理理念在美国刮起了一阵质量革命的旋风,从而大幅提高了美国的生产力与竞争地位。1987年,里根总统给戴明颁发了国家技术奖以示鼓励。
关于戴明的更多介绍:http://baike.baidu.com/view/280972.htm
戴明企业质量控制的理论大致如下:
企业管理,先要让企业进入控制状态,如果不是在控制状态,测量是无效的,改善是无用的;企业管理的波动来源分成共同原因和特殊原因,共同原因是企业大部分人都知道的,是由组织、流程或是一个团队所共同造成的,而特殊原因是由少数人的少数行为所造成的,只有少数人知道,为了要让企业管理进入控制状态,企业必须建立一套监控机制,称为统计管制;企业最大的敌人是特殊原因,必须尽全力找出特殊原因,加以消除;消除了特殊原因之后,就可以开始着手共同原因的改善,提高均值。发现问题,远比解决问题来的困难!因为你一旦找到了问题的来源,要解决它,只要群策群力,发挥众人共同的智慧就行,了不起动用这辈子累计的人脉关系网,到同行当中去寻找答案。但要解决问题,要先知道哪里有问题存在,戴明曾经说过,企业管理的震荡是很正常的,企业管理的波动也是很正常的,企业不波动是不可能的,但困难之处就刚好在这里,企业的波动有两种原因造成,一种是共同原因,是组织、流程或是多数人造成的,另外一种是特殊原因,是少数人的少数行为造成的,企业发现自己有了波动,但问题来了,这波动是哪种原因造成的?
如果是共同原因造成的,我们千万不要贸然救火,因为我们需要观察共性,了解发生的规律、发生的周期,要先找到一个共性和通性,才能下手进行改善。但如果是 特殊原因造成的,一定要立刻奔赴现场查明原因,因为特殊原因像是幽灵一样,来了又去,去了又来,我们如果没有在发生的那一刻,立刻尽全力去查,只要时间一 过去了,就没有机会在查出来到底是什么事件造成的,这也就是为何戴明说,企业最大的敌人是特殊原因。
最后,我们再回到统计数据分析的本质上面来,对数据进行分析就是为了发现其中的问题和异常,并根据这些问题和异常给出后续工作中的改进与优化措施,之后再对后续的数据进行分析,再进行改进与优化,如此的循环往复,直到从平凡到优秀,从优秀直到卓越。
附录:预知未来的6-9-12法则
有没有简单的办法来确认数据不再随机呢?有,那就是6-9-12法则:
1. “6”就是在控制图中,数据连续有6个点往上或往下,例如上面出轨事件中11月13日后的数据(图片中16日-18日的数据点未绘出);
2. “9”就是数据有9个点出现在均值的一边,例如上面出轨事件中12月5日-13日的数据;
3. “12”就是数据有12个点,像是锯齿一样,在均值上下连续跳动(六西格玛原理中用到了14个点)。
6-9-12法则是非常有威力的数据分析工具,任何的KPI指标都可以这样分析来确认有没有特殊原因发生,就如戴明说,企业最大的敌人是特殊原因,必须要有能力找到,要有系统可以监管,才有能力让企业进入控制状态。企业如果在失控状态,一定有特殊原因存在!
建议继续学习:
- 海量数据面试题举例 (阅读:8888)
- 三种东西永远不要放到数据库里 (阅读:6414)
- 数据分析中常用的数据模型 (阅读:6341)
- 五个免费开源的数据挖掘软件 (阅读:5118)
- 谈谈与数据打交道的工作 (阅读:4285)
- 页面停留时间和网站停留时间详解 (阅读:3660)
- 浅析十三种常用的数据挖掘的技术 (阅读:3491)
- 数据即代码,我和小伙伴们都惊呆了! (阅读:3353)
- 从数据中了解用户——数据在现有产品改版设计中的应用 (阅读:3324)
- 从数据中了解用户——数据在新产品设计中的应用 (阅读:3239)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:Planeboy 来源: 大P的互联网
- 标签: 数据 数据挖掘
- 发布时间:2010-10-24 19:34:38
- [53] IOS安全–浅谈关于IOS加固的几种方法
- [52] 如何拿下简短的域名
- [51] android 开发入门
- [51] 图书馆的世界纪录
- [50] Oracle MTS模式下 进程地址与会话信
- [49] Go Reflect 性能
- [46] 【社会化设计】自我(self)部分――欢迎区
- [46] 读书笔记-壹百度:百度十年千倍的29条法则
- [36] 程序员技术练级攻略
- [29] 视觉调整-设计师 vs. 逻辑