IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:Similarity Calculation

共 2 篇相关文章

IT 累计浏览 3,205

相似度计算之马氏距离

这篇讲的是马氏距离(Mahalanobis Distance)。作者首先指出了它和常见的欧氏距离的本质区别:马氏距离通过引入协方差矩阵,巧妙地“吸收”了数据各维度之间的相关性,并且不受量纲(测量单位)影响。 文章的核心在于解释它如何工作。简单说,马氏距离可以看作是将原始数据投影到由协方差矩阵定义的“标准化”空间后的欧氏距离。文中用了一个直观的图示:在椭圆形的等高线分布中,红点到黑点的欧氏距离小于绿点到黑点,但若考虑数据分布的相关性,马氏距离的结论可能正好相反。这清晰地展示了它在处理特征相关时的威力。 文章不仅梳理了方差、协方差等前置概念,给出了严谨的数学定义,还提供了完整的Python计算示例,使用的是跨国数据。最后,作者总结了马氏距离的优点(如排除相关干扰、满足距离公理)和一个潜在缺点(可能夸大微小变化变量的作用)。 从理论概念、直观图解到代码实践,这篇文章为理解这个重要的相似度度量工具提供了一个相当完整的入口。

IT 累计浏览 10,508

相似度计算常用方法综述

这篇讲的是相似度计算领域里那些最常用的方法。作者从实际应用中最常见的文本、向量、集合匹配场景出发,系统梳理了余弦相似度、欧氏距离、Jaccard系数等核心度量方式。文章没有停留在公式罗列上,而是重点剖析了每个方法的本质区别:余弦相似度关注方向而非长度,适合处理高维文本;欧氏距离衡量绝对数值差异,对缩放敏感;Jaccard系数则从集合重叠度出发,擅长处理二元特征。 更进一步,文章结合具体例子说明了“何时用什么”——比如在推荐系统中,物品特征向量用余弦相似度更稳定;而在计算用户行为路径相似度时,编辑距离可能更合适。对于工程实现中常见的归一化、稀疏数据加速等细节问题也给出了实用建议。结尾回归到方法的选择本质:先明确业务中“相似”的定义,再匹配数学工具。这种从问题反推工具的思路,对需要快速落地算法的工程师来说,提供了一个很清晰的选型框架。