IT技术博客大学习 共学习 共进步

标签:Statistics

共 8 篇相关文章

IT 累计浏览 2,860

数据分析中位数的应用

这篇讲的是如何让枯燥的折线图更直观地传达信息。作者发现,普通折线图常常无法突出数据中的关键点,于是通过对比两张图(A图是常规折线,B图则将最高的几个数据点用特殊图标标出),直观地展示了“一目了然”的视觉效果差异。 核心问题随之而来:如何从一堆数据里,自动找出那个用于区分“特殊点”与“普通点”的分界线呢?文章对比了两种常见方法——平均数和中位数。作者指出,平均数虽然反映整体水平,但极易被一两个极端的高值或低值“带偏”,无法稳定代表“大多数”情况。相比之下,中位数是把数据排序后取中间的那个数(或两个数的平均),它不受极端值影响,更能代表数据的“中间”或“典型”水平,因此成为构建这个分界线的更优选择。 为了便于实践,作者还提供了一个计算中位数的PHP函数代码示例。整篇文章从一个可视化的痛点切入,落到具体的统计概念辨析和算法实现,思路清晰,具有不错的实操参考价值。

IT 累计浏览 2,121

Oracle数据库升级迁移、SPA及统计信息

作者从一次真实的升级迁移讲起:某省级电信运营商将核心CRM系统的Oracle数据库,从IBM小型机上的10g RAC迁移至x86+VMware平台的11g RAC,成本降至十分之一。这引出了一个关键的后续问题:新系统上线后,应采用何种统计信息收集策略? 文章对比了两种方案:迁移旧库统计信息或在新库自动收集。作者团队最终选择了后者,原因是11gR2的自动收集机制已相对完善,且能为后续运维降低风险。但如何确保这一策略在上线时就安全可用?答案在于利用SPA(SQL性能分析器)。 团队使用了生产库三个时段及一个月AWR中的全部SQL,在新库上跑SPA测试。在测试前,先用`dbms_stats.gather_database_stats(options=>'gather auto')`执行一次增量收集。然而,直接这样做会导致新库的直方图信息严重缺失,因为自动收集依赖`col_usage$`表,而新库此表为空。解决方法是在SPA测试过程中,通过执行足够多的SQL来“喂饱”`col_usage$`,让系统“记住”哪些列需要被关注。最终,基于SPA的测试结果,用数十个SQL Profile固化了风险计划,保障了系统平稳上线。 这篇分享的价值在于,它清晰地展示了在大型跨版本迁移中,如何通过组合使用SPA和自动统计信息收集策略,来系统性规避性能风险,而不仅仅是凭经验手工调优。

IT 累计浏览 2,740

正态分布的前世今生(五)

这篇讲的是正态分布在19世纪如何从崭露头角到成为统计学基石的关键发展历程。作者从拉普拉斯和高斯两位巨人的工作切入,清晰地勾勒出正态分布在两大支柱学科中的奠基过程。 文章首先追溯到1776年,拉普拉斯为解决天文学中的彗星轨道问题,开始研究多个独立随机变量之和的概率计算。这一实践问题最终推动了中心极限定理的诞生,为正态分布在概率论中的核心地位打下了理论基础,使其成为描述“随机之和”的通用模型。 与此同时,在数理统计领域,高斯基于对天文观测误差的细致分析,大力提倡并推广正态分布,使其在误差理论与数据分析中畅行天下。文章特别提到高斯在处理测量误差时,如何将正态分布(即高斯分布)作为分析工具。 通过回顾这段历史,文章揭示了正态分布之所以能成为近代统计学“开疆扩土”的主角,正是因为它同时被概率论的理论框架(中心极限定理)和数理统计的实践需求(误差分析)所双重赋能,从而奠定了其在科学与工程领域无处不在的坚实地位。

IT 累计浏览 5,522

皮尔逊积矩相关系数的学习

作者从相似度计算中常见的皮尔逊相关系数出发,用两种视角帮你真正“看懂”这个公式。第一种是统计学视角,通过高中课本里的Z分数处理,逐步拆解公式;第二种是几何视角,将其理解为两组数据向量夹角的余弦值,文章里还配了直观的回归线示意图。 两种理解方式都附有清晰的Python实现代码,让抽象概念变得可操作。不仅如此,文章最后还梳理了应用皮尔逊相关的四个关键约束条件,并提到了实践中常输出的相关系数与独立样本检验系数。 从“算出来”到“看明白”,这篇文章提供了从基础推导到几何直观的完整路径,能帮你建立更立体的技术理解。

IT 累计浏览 3,421

正态分布的前世今生(二)

这篇文章深入讲解了最小二乘法的核心思想与历史地位。作者从一个经典问题出发:如何为一堆散乱的观测数据找到最吻合的数学规律?最小二乘法给出的方案简洁而优雅——寻找一条曲线,使得所有数据点到该曲线的垂直距离(残差)的平方和最小。 文章揭示了最小二乘法之所以被称为“数据分析的瑞士军刀”,不仅因其简单有效,更因为它与正态分布有着深刻的“前世今生”关联。历史上,正是高斯在运用最小二乘法处理天文观测数据时,为了解释其有效性而反向推导出了正态分布的形态。这意味着,当我们用最小二乘法拟合数据时,其实隐含了一个假设:数据的误差服从正态分布。 因此,最小二乘法远不止一个拟合工具,它成为了连接观测数据与概率理论的桥梁。无论是在早期的天体力学计算,还是现代的机器学习与回归分析中,这个诞生于19世纪的方法依然是处理线性模型问题最基础、最通用的“钥匙”。这是《正态分布的前世今生》系列第二篇的精彩开篇。

IT 累计浏览 2,140

MySQL数据库InnoDB存储引擎查询优化器实现的分析之统计信息

这篇深入分析了MySQL InnoDB存储引擎中查询优化器背后的“隐形大脑”——统计信息是如何工作的。作者没有停留在概念层面,而是直接切入InnoDB的核心实现:系统如何通过采样特定数量的数据页(默认采样20个叶子页)来估算表和索引的基数(Cardinality)。文章详细拆解了`ANALYZE TABLE`命令触发的统计信息更新流程,并揭示了`innodb_stats_transient_sample_pages`和`innodb_stats_persistent_sample_pages`参数在瞬时统计与持久化统计间的权衡。 关键点在于,这些并非精确的全表扫描结果,而是基于概率的估算。文章用具体例子说明了估算误差可能如何误导优化器,比如在数据分布极不均匀的字段上,选择次优索引甚至全表扫描。同时,它也指出了自动更新统计信息的时机(如表发生超过10%的数据变更)以及这对查询计划稳定性的影响。 读完能明白,优化一条慢SQL,除了看执行计划,理解其背后的统计信息来源是否准确、及时,往往是解开谜团的真正钥匙。

IT 累计浏览 2,201

品牌影响力评估方法探讨

这篇从聚划算近期密集的媒体广告投放策略出发,探讨了品牌影响力评估的核心方法论。文章指出,这类大规模投放不仅在非淘宝用户中快速建立了品牌认知,也在既有用户中深化了品牌理解,从而有效提升了品牌价值。这一案例引出了关键问题:品牌影响力究竟该如何科学衡量? 作者认为,评估需超越简单的曝光量或点击率,而应聚焦于其对用户心智的实际影响,包括认知度、联想度和忠诚度的变迁。文章可能从传播学与市场营销的交叉视角,梳理了诸如品牌资产模型、社交媒体声量分析、以及长周期用户调研等多维度的评估工具与框架。 其核心启发在于,品牌建设并非玄学,而是可以通过结构化方法捕捉和量化其长期价值的过程。对于从业者而言,文章提供了一套将营销动作与可追踪指标相结合的思路,使得品牌策略的成效评估有迹可循。

IT 累计浏览 2,441

数据会骗人:辛普森悖论

这篇讲的是数据分析中一个经典且反直觉的陷阱:辛普森悖论。文章从探究变量相关性(如新生录取率与性别、报酬与性别)时的分组研究现象切入,点明核心矛盾——在分组比较中各自占优的两方,当数据汇总到一起时,整体优势方却可能完全反转。 这种看似违背逻辑的现象,并非数据错误,而恰恰揭示了数据分析的复杂性。它提醒我们,简单地合并数据得出结论可能具有误导性。文章追溯了该悖论从20世纪初被讨论,直至1951年由E.H.辛普森正式定义的过程,赋予了它清晰的历史脉络。 理解辛普森悖论的关键,在于认识到“第三变量”或隐藏因素(如学科选择、职业分布)的存在可能同时影响着分组与结果。这篇文章的启示在于,无论是进行学术研究还是业务决策,面对聚合数据时都需要保持一份警觉:必须追问分组数据是否提供了更细致的故事,而总体趋势又可能掩盖了哪些重要的差异。