标签：Statistics

共 8 篇相关文章

IT 累计浏览 2,976

数据分析中位数的应用

这篇讲的是如何让枯燥的折线图更直观地传达信息。作者发现，普通折线图常常无法突出数据中的关键点，于是通过对比两张图（A图是常规折线，B图则将最高的几个数据点用特殊图标标出），直观地展示了“一目了然”的视觉效果差异。核心问题随之而来：如何从一堆数据里，自动找出那个用于区分“特殊点”与“普通点”的分界线呢？文章对比了两种常见方法——平均数和中位数。作者指出，平均数虽然反映整体水平，但极易被一两个极端的高值或低值“带偏”，无法稳定代表“大多数”情况。相比之下，中位数是把数据排序后取中间的那个数（或两个数的平均），它不受极端值影响，更能代表数据的“中间”或“典型”水平，因此成为构建这个分界线的更优选择。为了便于实践，作者还提供了一个计算中位数的PHP函数代码示例。整篇文章从一个可视化的痛点切入，落到具体的统计概念辨析和算法实现，思路清晰，具有不错的实操参考价值。

IT 累计浏览 2,232

Oracle数据库升级迁移、SPA及统计信息

作者从一次真实的升级迁移讲起：某省级电信运营商将核心CRM系统的Oracle数据库，从IBM小型机上的10g RAC迁移至x86+VMware平台的11g RAC，成本降至十分之一。这引出了一个关键的后续问题：新系统上线后，应采用何种统计信息收集策略？文章对比了两种方案：迁移旧库统计信息或在新库自动收集。作者团队最终选择了后者，原因是11gR2的自动收集机制已相对完善，且能为后续运维降低风险。但如何确保这一策略在上线时就安全可用？答案在于利用SPA（SQL性能分析器）。团队使用了生产库三个时段及一个月AWR中的全部SQL，在新库上跑SPA测试。在测试前，先用`dbms_stats.gather_database_stats(options=>'gather auto')`执行一次增量收集。然而，直接这样做会导致新库的直方图信息严重缺失，因为自动收集依赖`col_usage$`表，而新库此表为空。解决方法是在SPA测试过程中，通过执行足够多的SQL来“喂饱”`col_usage$`，让系统“记住”哪些列需要被关注。最终，基于SPA的测试结果，用数十个SQL Profile固化了风险计划，保障了系统平稳上线。这篇分享的价值在于，它清晰地展示了在大型跨版本迁移中，如何通过组合使用SPA和自动统计信息收集策略，来系统性规避性能风险，而不仅仅是凭经验手工调优。

IT 累计浏览 2,831

正态分布的前世今生(五)

这篇讲的是正态分布在19世纪如何从崭露头角到成为统计学基石的关键发展历程。作者从拉普拉斯和高斯两位巨人的工作切入，清晰地勾勒出正态分布在两大支柱学科中的奠基过程。文章首先追溯到1776年，拉普拉斯为解决天文学中的彗星轨道问题，开始研究多个独立随机变量之和的概率计算。这一实践问题最终推动了中心极限定理的诞生，为正态分布在概率论中的核心地位打下了理论基础，使其成为描述“随机之和”的通用模型。与此同时，在数理统计领域，高斯基于对天文观测误差的细致分析，大力提倡并推广正态分布，使其在误差理论与数据分析中畅行天下。文章特别提到高斯在处理测量误差时，如何将正态分布（即高斯分布）作为分析工具。通过回顾这段历史，文章揭示了正态分布之所以能成为近代统计学“开疆扩土”的主角，正是因为它同时被概率论的理论框架（中心极限定理）和数理统计的实践需求（误差分析）所双重赋能，从而奠定了其在科学与工程领域无处不在的坚实地位。

IT 累计浏览 5,649

皮尔逊积矩相关系数的学习

作者从相似度计算中常见的皮尔逊相关系数出发，用两种视角帮你真正“看懂”这个公式。第一种是统计学视角，通过高中课本里的Z分数处理，逐步拆解公式；第二种是几何视角，将其理解为两组数据向量夹角的余弦值，文章里还配了直观的回归线示意图。两种理解方式都附有清晰的Python实现代码，让抽象概念变得可操作。不仅如此，文章最后还梳理了应用皮尔逊相关的四个关键约束条件，并提到了实践中常输出的相关系数与独立样本检验系数。从“算出来”到“看明白”，这篇文章提供了从基础推导到几何直观的完整路径，能帮你建立更立体的技术理解。

IT 累计浏览 3,507

正态分布的前世今生(二)

这篇文章深入讲解了最小二乘法的核心思想与历史地位。作者从一个经典问题出发：如何为一堆散乱的观测数据找到最吻合的数学规律？最小二乘法给出的方案简洁而优雅——寻找一条曲线，使得所有数据点到该曲线的垂直距离（残差）的平方和最小。文章揭示了最小二乘法之所以被称为“数据分析的瑞士军刀”，不仅因其简单有效，更因为它与正态分布有着深刻的“前世今生”关联。历史上，正是高斯在运用最小二乘法处理天文观测数据时，为了解释其有效性而反向推导出了正态分布的形态。这意味着，当我们用最小二乘法拟合数据时，其实隐含了一个假设：数据的误差服从正态分布。因此，最小二乘法远不止一个拟合工具，它成为了连接观测数据与概率理论的桥梁。无论是在早期的天体力学计算，还是现代的机器学习与回归分析中，这个诞生于19世纪的方法依然是处理线性模型问题最基础、最通用的“钥匙”。这是《正态分布的前世今生》系列第二篇的精彩开篇。

IT 累计浏览 2,224

MySQL数据库InnoDB存储引擎查询优化器实现的分析之统计信息

这篇深入分析了MySQL InnoDB存储引擎中查询优化器背后的“隐形大脑”——统计信息是如何工作的。作者没有停留在概念层面，而是直接切入InnoDB的核心实现：系统如何通过采样特定数量的数据页（默认采样20个叶子页）来估算表和索引的基数（Cardinality）。文章详细拆解了`ANALYZE TABLE`命令触发的统计信息更新流程，并揭示了`innodb_stats_transient_sample_pages`和`innodb_stats_persistent_sample_pages`参数在瞬时统计与持久化统计间的权衡。关键点在于，这些并非精确的全表扫描结果，而是基于概率的估算。文章用具体例子说明了估算误差可能如何误导优化器，比如在数据分布极不均匀的字段上，选择次优索引甚至全表扫描。同时，它也指出了自动更新统计信息的时机（如表发生超过10%的数据变更）以及这对查询计划稳定性的影响。读完能明白，优化一条慢SQL，除了看执行计划，理解其背后的统计信息来源是否准确、及时，往往是解开谜团的真正钥匙。

IT 累计浏览 2,293

品牌影响力评估方法探讨

这篇从聚划算近期密集的媒体广告投放策略出发，探讨了品牌影响力评估的核心方法论。文章指出，这类大规模投放不仅在非淘宝用户中快速建立了品牌认知，也在既有用户中深化了品牌理解，从而有效提升了品牌价值。这一案例引出了关键问题：品牌影响力究竟该如何科学衡量？作者认为，评估需超越简单的曝光量或点击率，而应聚焦于其对用户心智的实际影响，包括认知度、联想度和忠诚度的变迁。文章可能从传播学与市场营销的交叉视角，梳理了诸如品牌资产模型、社交媒体声量分析、以及长周期用户调研等多维度的评估工具与框架。其核心启发在于，品牌建设并非玄学，而是可以通过结构化方法捕捉和量化其长期价值的过程。对于从业者而言，文章提供了一套将营销动作与可追踪指标相结合的思路，使得品牌策略的成效评估有迹可循。

IT 累计浏览 2,532

数据会骗人：辛普森悖论

这篇讲的是数据分析中一个经典且反直觉的陷阱：辛普森悖论。文章从探究变量相关性（如新生录取率与性别、报酬与性别）时的分组研究现象切入，点明核心矛盾——在分组比较中各自占优的两方，当数据汇总到一起时，整体优势方却可能完全反转。这种看似违背逻辑的现象，并非数据错误，而恰恰揭示了数据分析的复杂性。它提醒我们，简单地合并数据得出结论可能具有误导性。文章追溯了该悖论从20世纪初被讨论，直至1951年由E.H.辛普森正式定义的过程，赋予了它清晰的历史脉络。理解辛普森悖论的关键，在于认识到“第三变量”或隐藏因素（如学科选择、职业分布）的存在可能同时影响着分组与结果。这篇文章的启示在于，无论是进行学术研究还是业务决策，面对聚合数据时都需要保持一份警觉：必须追问分组数据是否提供了更细致的故事，而总体趋势又可能掩盖了哪些重要的差异。