IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

修正调研数据 扩展使用限度

Taobao.com UED Team 2010-08-12 09:20:34 累计浏览 2,630 次
本机暂存
缘起――网络调查具有先天的优劣势
最近一个季度做了N多调研项目,结项之余,不由自主地对比了一下网络调查与传统调查的优劣,详见下图:

    原图已失效

有了这些先天的优劣势,网络调查一般执行的周期较短,但时常为了样本均衡,会采用脉冲式投放,收集数据的时间会适当延长一些。在我主导的网络调研项目中,投放的样本量一般都有几十万,一是为了能够快速收集足够多的调研样本,二是考虑到低响应率的问题。

如此大的投放量,而网络调研中又有很多不可控的因素,最终使用的有效调研样本量相对较低,他们到底是否能够有效代表总体呢?我想这个问题可以一分为二来看,在相同的执行条件下,只针对性地研究特殊用户的调研,有效调研样本在达到一定量的前提下,代表性偏差一般不大;需要推断网站全体用户的调研,虽然有效调研样本也能达到一定量,但代表性还是会打折扣,尤其是对淘宝用户而言。

    加权――弥补网络调研数据先天的劣势

     统计学中关于随机抽样的理论中讲过,一个研究随机抽取多少样本与总体的大小无关,而主要与最大允许误差和置信区间有关。但真正执行的时候,未必会这么理想,尤其是在人力财力有限的条件下,随机抽取的投放样本与有效调研样本之间,受响应率和认真填答的积极性等因素影响,会存在偏差。

     那么在推断网站全体用户的调研中,就需要引入加权的思想,适当的加权可以使样本的关键结构,调整到与总体的关键结构相一致,从而提升样本的应用范围,所得结论会更严谨更具推广性;针对特殊用户的调研,也可以对样本进行加权,更有效地发挥样本的代表性。

    如何加权――单变量比例加权

为了比较初级买家与高级买家之间对某一产品的体验差异,采用非等比随机抽样,事先增加了高级买家的抽中比例。

当需要推及总体买家对这一产品的体验情况时,需要对数据进行加权,结果如下:

原图已失效

上表第d列 (S/P) 是用各级别买家在调研样本中占的比例除以其在总体中占的比例,其值越接近1,说明该级别买家在调研样本中的比重越合适;反之,其值越背离1,其在调研样本中的比重越不合适。

若恰巧各组的这一比值均接近1,可以近似等同总体分布,而不对调研样本进行加权。本例显然需要对调研样本进行加权。

首先要确定加权的起点在哪里?这里有三种选择:

1)以S/P的最小值(本例0.69)为起点,将其他组的S/P值都降低到这个水平,因此叫做Scale-down weighting(“水落石出”法)。其结果是将原调研样本缩小S/P最小值倍(本例0.69,原调研样本7200人,每组权重为0.69/d列相应值,加权后减至4968),放水过多,也不合适

2)以S/P的最大值(如本例的8.33)为起点,将其他组的S/P值都提高到这个水平,这种策略叫做Scale-up weighting(“水高船涨”法)。其结果也就是将原来的调研样本放大S/P最大值倍(本例8.33倍,原调研样本7200人,每组权重为8.33/d列相应值,加权后会增至59976人),可见水分太大,不可取。

3)以S/P的加权平均值为起点,将大于1的S/P值调低至1而将小于1的S/P值调高至1,因此叫做Zero-sum weighting(“有增有减但总数不变”法)。加权后的样本数与原调研样本相同、还是7200(见表第f列)。可见这种方法相比之下最合理,学术界和调查业界通常都用它来加权。

原图已失效

比例加权需要注意的几个问题:

1)加权只能调整样本各组之间的相对比例、并不会产生任何新的信息。

2)一个重要细节是如果S/P值中有小于0.5(也即P/S值或权数大于2)的,则不能靠过分灌水来解决问题。这时的对策有三个:

l 增加那些采样不足的(under-sampled)组别的case数量(上策)

l 用S/P值最小值(Scale-down的策略)来加权(最保守、浪费资源、但不犯I类错误)

l 前两者的结合,即增加部分case数然后按新的最小S/P值来加权

3)如果那些采样不足的(under-sampled)组case数量太少(一般不能少于30),需要按2)同样的原则来处理。

对于2)和3)中提到的情况,另外一种变通的方法就是重新划分组,此法省时省力。

4)经过加权的样本,能够推算总体的常规统计量,但计算误差时则不能用加权样本直接计算。

5)为了便于解释,上述例子只涉及一个变量(买家级别)的加权。实际上,研究买家除了级别,注册时长、月成交量/额等也很重要。所以需要用多个变量同时加权 (weighted by several variables simultaneously)。

(本小节以上内容参考了香港城市大学祝建华博士的BLOG文章《如何对样本进行加权?http://zjz06.ycool.com/post.2695611.html,在此表示感谢,愿祝老师健康、笔耕不辍!)

总结一句话:在随机抽样的前提下,比例加权的本质就是将调研样本分布修正为等比随机抽样分布。

    如何加权――单变量推及量加权

为什么用推及量加权:

1) 上小节提到的获取总体参数的变通方法:在总体中用简单随机抽样抽取一定数量的样本,能够获得一个较大的样本,用来推及总体依然带有少许误差。

2)比例加权的运算方法有些麻烦;而推及量加权的运算方法简便。

推及量加权的依据:

1)加权的前提与比例加权相同:修正非等比随机抽样NPPS和等比随机抽样PPS

2)两种方法等价:

比例加权:Pn%/Sn%

推及量加权:Pn/Sn=(Pn%*P)/(Sn%*S)=(Pn%/Sn%)*P/S 由于每一组case相对于比例加权都扩大了P/S倍,即样本整体扩大了P/S倍。绝大部分研究结果都以比例呈现,而计算比例的时候,样本整体扩大的P/S倍没有影响,因此推及量加权适用。

原图已失效

推及量加权需要注意的事项与比例加权相似,此不赘述。

    如何加权――多变量推及量加权

加权的步骤和方法相同

单变量加权时,以买家级别组为例,需要分别统计三组的总体比例(量)和调研样本的比例(量)

多变量加权时,各个变量进行交叉,如三组级别、三组注册时长、三组月成交量,即组合出27组,分别统计这27组的总体比例(量)和调研样本的比例(量)

总结一句话:多变量加权实际上就是单变量加权的复杂版。

    如何加权――实际操作

通过EXCEL和SPSS对数据进行加权:

1)通过SPSS计算总体中大样本的有关参数和调研样本相应的统计量

2)将结果放入EXCEL进行整理,注意单变量或多变量交叉后的对应,并编写SPSS命令

3)将命令拷贝到记事本,再拷到SPSS的Syntax中运行命令

同分类推荐文章

  1. 对基本有序的序列排序算法 (2026-06-11 17:46:49)
  2. Four Levels Of Customer Understanding (2026-05-22 21:00:00)
  3. 除法的意义 (2026-04-12 20:52:17)

查看更多 算法 文章 →

建议继续学习

  1. 可用性测试的权衡之道(二) (累计阅读 5,844)
  2. 用户研究Q&A (累计阅读 4,376)
  3. Linux上删除空行的方法 (累计阅读 3,917)
  4. 统计数据背后的真相 ― 读《How to lie with statistics》 (累计阅读 3,487)
  5. 调查问卷的信度效度分析方法 (累计阅读 2,917)
  6. 各门户若干年来的广告收入 (累计阅读 2,524)
  7. 说点市场调研方法 (累计阅读 2,489)
  8. 卖家反馈影响因素的量化研究(上) (累计阅读 2,418)
  9. 框计算垂直搜索之统计篇 (累计阅读 2,395)
  10. 如何对定性人物角色进行定量验证 (累计阅读 2,225)