数据会骗人:辛普森悖论
浏览:1609次 出处信息
当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。
一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计:
法学院
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 8 | 45 | 53 | 15.1% |
女生 | 51 | 101 | 152 | 33.6% |
合计 | 59 | 146 | 205 |
商学院
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 201 | 50 | 251 | 80.1% |
女生 | 92 | 9 | 101 | 91.1% |
合计 | 293 | 59 | 352 |
根据上面两个表格来看,女生在两个学院都被优先录取。即女生的录取比率较高。现在将两学院的数据汇总:
性别 | 录取 | 拒收 | 总数 | 录取比例 |
---|---|---|---|---|
男生 | 209 | 95 | 304 | 68.8% |
女生 | 143 | 110 | 253 | 56.5% |
合计 | 352 | 205 | 557 |
在总评中,女生的录取比率反而比男生低。
上面的数字太凌乱,可以直接看下面的数据:
男 | 女 | ||
---|---|---|---|
历史系 | 1/5 | < | 2/8 |
地理系 | 6/8 | < | 4/5 |
总体 | 7/13 | > | 6/13 |
借助一幅向量图可以更好的了解情况
女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生
这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。
就上述例子说,导致辛普森悖论有两个前提。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。
参考地址:
http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA
http://plato.stanford.edu/entries/paradox-simpson/#Causation
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:经典证明:Conway的士兵
后一篇:千万不要把 bool 当成函数参数 >>
文章信息
- 作者:标点符 来源: 标点符
- 标签: 辛普森
- 发布时间:2011-09-14 13:45:49
近3天十大热文
- [67] Go Reflect 性能
- [67] Oracle MTS模式下 进程地址与会话信
- [67] 如何拿下简短的域名
- [61] IOS安全–浅谈关于IOS加固的几种方法
- [60] 图书馆的世界纪录
- [59] android 开发入门
- [59] 【社会化设计】自我(self)部分――欢迎区
- [56] 视觉调整-设计师 vs. 逻辑
- [49] 给自己的字体课(一)——英文字体基础
- [47] 界面设计速成