您现在的位置:首页 --> 查看专题: MinHash
MinHash首先它是一种基于 Jaccard Index 相似度的算法,也是一种LSH的降维的方法,应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下MinHash。 举例A,B 两个集合: A = {s1, s3, s6, s8, s9} B = {s3, s4, s7, s8, s10} 根据Jaccard Index公式,A,B的相似度 S(A,B) = |A∩B|/|A∪B| = 2/8 = 0.25, 用图表示如下: 当然直接计算两个集合的交集与并集,是很耗计算资源的,特别是在海量数据场景下不可行。 假如,我们随机从两个集合中各挑选一个元素s(A)、s(B),刚好这两个无素相同的概率是多少呢?
[ 共1篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
-
[84] memory prefetch浅析
-
[53] 基本排序算法的PHP实现
-
[52] 深入浅出cassandra 4 数据一致性问
-
[50] 转载:cassandra读写性能原理分析
-
[42] 字符引用和空白字符
-
[42] MySQL半同步存在的问题
-
[40] javascript插入样式
-
[40] Inline Form Labels
-
[38] 获取Dom元素的X/Y坐标
-
[38] JS中如何判断字符串类型的数字
赞助商广告