修正调研数据扩展使用限度

Taobao.com UED Team 2010-08-12 09:20:34 累计浏览 2,632 次

本机暂存

内容概览

这篇讲的是网络调查在数据收集中的先天优劣势，以及如何通过修正数据来扩展其使用限度。作者从网络调查的普遍应用出发，指出其虽然具备低成本、高效率等优势，但也常面临样本偏差、响应率低、数据质量不稳定等固有问题，这些局限往往限制了调研结果的可靠性和应用范围。

文章的核心观点在于，单纯依赖原始调研数据可能无法满足复杂场景的需求，但通过系统性的数据修正，可以显著提升数据的准确性和适用性。具体来说，作者探讨了多种修正技术，比如利用加权调整纠正样本代表性偏差，或借助机器学习模型识别并过滤异常值，同时强调验证数据质量的重要性。这些方法不仅适用于市场调研，也能扩展到社会科学研究、产品优化等领域，例如在用户行为分析中，修正后的数据能更精准地反映真实趋势，避免因初始误差导致的决策失误。

最终，文章启发读者：数据修正不是一次性的清洗步骤，而是一个需要持续迭代的优化过程。在实际工作中，结合具体场景灵活应用这些技术，能有效挖掘调研数据的潜在价值，让网络调查从“可用”走向“可靠”，从而支撑更广泛的应用需求。

缘起――网络调查具有先天的优劣势

最近一个季度做了N多调研项目，结项之余，不由自主地对比了一下网络调查与传统调查的优劣，详见下图：

有了这些先天的优劣势，网络调查一般执行的周期较短，但时常为了样本均衡，会采用脉冲式投放，收集数据的时间会适当延长一些。在我主导的网络调研项目中，投放的样本量一般都有几十万，一是为了能够快速收集足够多的调研样本，二是考虑到低响应率的问题。

如此大的投放量，而网络调研中又有很多不可控的因素，最终使用的有效调研样本量相对较低，他们到底是否能够有效代表总体呢？我想这个问题可以一分为二来看，在相同的执行条件下，只针对性地研究特殊用户的调研，有效调研样本在达到一定量的前提下，代表性偏差一般不大；需要推断网站全体用户的调研，虽然有效调研样本也能达到一定量，但代表性还是会打折扣，尤其是对淘宝用户而言。

加权――弥补网络调研数据先天的劣势

统计学中关于随机抽样的理论中讲过，一个研究随机抽取多少样本与总体的大小无关，而主要与最大允许误差和置信区间有关。但真正执行的时候，未必会这么理想，尤其是在人力财力有限的条件下，随机抽取的投放样本与有效调研样本之间，受响应率和认真填答的积极性等因素影响，会存在偏差。

那么在推断网站全体用户的调研中，就需要引入加权的思想，适当的加权可以使样本的关键结构，调整到与总体的关键结构相一致，从而提升样本的应用范围，所得结论会更严谨更具推广性；针对特殊用户的调研，也可以对样本进行加权，更有效地发挥样本的代表性。

如何加权――单变量比例加权

为了比较初级买家与高级买家之间对某一产品的体验差异，采用非等比随机抽样，事先增加了高级买家的抽中比例。

当需要推及总体买家对这一产品的体验情况时，需要对数据进行加权，结果如下：

上表第d列 (S/P) 是用各级别买家在调研样本中占的比例除以其在总体中占的比例，其值越接近1，说明该级别买家在调研样本中的比重越合适；反之，其值越背离1，其在调研样本中的比重越不合适。

若恰巧各组的这一比值均接近1，可以近似等同总体分布，而不对调研样本进行加权。本例显然需要对调研样本进行加权。

首先要确定加权的起点在哪里？这里有三种选择：

1）以S/P的最小值（本例0.69）为起点，将其他组的S/P值都降低到这个水平，因此叫做Scale-down weighting（“水落石出”法）。其结果是将原调研样本缩小S/P最小值倍（本例0.69，原调研样本7200人，每组权重为0.69/d列相应值，加权后减至4968)，放水过多，也不合适

2）以S/P的最大值（如本例的8.33）为起点，将其他组的S/P值都提高到这个水平，这种策略叫做Scale-up weighting（“水高船涨”法）。其结果也就是将原来的调研样本放大S/P最大值倍（本例8.33倍，原调研样本7200人，每组权重为8.33/d列相应值，加权后会增至59976人），可见水分太大，不可取。

3）以S/P的加权平均值为起点，将大于1的S/P值调低至1而将小于1的S/P值调高至1，因此叫做Zero-sum weighting（“有增有减但总数不变”法）。加权后的样本数与原调研样本相同、还是7200（见表第f列）。可见这种方法相比之下最合理，学术界和调查业界通常都用它来加权。

比例加权需要注意的几个问题：

1）加权只能调整样本各组之间的相对比例、并不会产生任何新的信息。

2）一个重要细节是如果S/P值中有小于0.5（也即P/S值或权数大于2）的，则不能靠过分灌水来解决问题。这时的对策有三个：

l 增加那些采样不足的（under-sampled）组别的case数量（上策）

l 用S/P值最小值（Scale-down的策略）来加权（最保守、浪费资源、但不犯I类错误）

l 前两者的结合，即增加部分case数然后按新的最小S/P值来加权

3）如果那些采样不足的（under-sampled）组case数量太少（一般不能少于30），需要按2）同样的原则来处理。

对于2）和3）中提到的情况，另外一种变通的方法就是重新划分组，此法省时省力。

4）经过加权的样本，能够推算总体的常规统计量，但计算误差时则不能用加权样本直接计算。

5）为了便于解释，上述例子只涉及一个变量（买家级别）的加权。实际上，研究买家除了级别，注册时长、月成交量/额等也很重要。所以需要用多个变量同时加权 (weighted by several variables simultaneously）。

（本小节以上内容参考了香港城市大学祝建华博士的BLOG文章《如何对样本进行加权？》http://zjz06.ycool.com/post.2695611.html，在此表示感谢，愿祝老师健康、笔耕不辍！）

总结一句话：在随机抽样的前提下，比例加权的本质就是将调研样本分布修正为等比随机抽样分布。

如何加权――单变量推及量加权

为什么用推及量加权：

1）上小节提到的获取总体参数的变通方法：在总体中用简单随机抽样抽取一定数量的样本，能够获得一个较大的样本，用来推及总体依然带有少许误差。

2）比例加权的运算方法有些麻烦；而推及量加权的运算方法简便。

推及量加权的依据：

1）加权的前提与比例加权相同：修正非等比随机抽样NPPS和等比随机抽样PPS

2）两种方法等价：

比例加权：Pn%/Sn%

推及量加权：Pn/Sn=(Pn%*P)/(Sn%*S)=(Pn%/Sn%)*P/S 由于每一组case相对于比例加权都扩大了P/S倍，即样本整体扩大了P/S倍。绝大部分研究结果都以比例呈现，而计算比例的时候，样本整体扩大的P/S倍没有影响，因此推及量加权适用。

推及量加权需要注意的事项与比例加权相似，此不赘述。

如何加权――多变量推及量加权

加权的步骤和方法相同

单变量加权时，以买家级别组为例，需要分别统计三组的总体比例（量）和调研样本的比例（量）

多变量加权时，各个变量进行交叉，如三组级别、三组注册时长、三组月成交量，即组合出27组，分别统计这27组的总体比例（量）和调研样本的比例（量）

总结一句话：多变量加权实际上就是单变量加权的复杂版。

如何加权――实际操作

通过EXCEL和SPSS对数据进行加权：

1）通过SPSS计算总体中大样本的有关参数和调研样本相应的统计量

2）将结果放入EXCEL进行整理，注意单变量或多变量交叉后的对应，并编写SPSS命令

3）将命令拷贝到记事本，再拷到SPSS的Syntax中运行命令

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

可用性测试的权衡之道（二）（累计阅读 5,844）
用户研究Q&A （累计阅读 4,377）
Linux上删除空行的方法（累计阅读 3,917）
统计数据背后的真相 ― 读《How to lie with statistics》（累计阅读 3,490）
调查问卷的信度效度分析方法（累计阅读 2,918）
各门户若干年来的广告收入（累计阅读 2,524）
说点市场调研方法（累计阅读 2,490）
卖家反馈影响因素的量化研究（上）（累计阅读 2,418）
框计算垂直搜索之统计篇（累计阅读 2,397）
如何对定性人物角色进行定量验证（累计阅读 2,225）

修正调研数据 扩展使用限度

同分类推荐文章

建议继续学习

修正调研数据扩展使用限度