五种常用基数估计算法效果实验及实践建议

CodingLabs 2013-09-02 13:14:59 累计浏览 2,620 次

本机暂存

内容概览

这篇讲的是作者对五种常用基数估计算法——Linear Counting、LogLog Counting、Adaptive Counting、HyperLogLog Counting和HyperLogLog++ Counting——进行的系统性实验对比。作者依托团队的开源库ccard-lib，在均匀哈希的数据集上，对它们在不同数据规模下的估计误差、内存占用及收敛速度进行了详尽的图表化展示。

实验揭示了每种算法独特的性能区间与权衡。例如，Linear Counting在基数较小时精度高但内存消耗大；而HyperLogLog++在处理海量数据时展现了卓越的稳定性与空间效率。文章不仅直观呈现了算法从理论走向实践时的表现差异，更基于这些一手数据，提炼出了极具参考价值的选型与调优建议。

如果你正在为特定业务场景（如实时流统计、大规模日志分析）选择基数估算方案，或是想理解不同算法在工程实现中的真实效能，这篇结合了定量实验与实用结论的深度对比，能为你提供清晰的技术路线参考。

之前我曾写过一系列关于基数估计（cardinality estimation）算法的文章，文中介绍了一些常用基数估计算法的原理。最近对常用的基数估计算法做了一些实验，这篇文章描述了实验结果，包括这些算法的估计效果及误差状况，主要通过图表展示。通过观察实验数据和可视化图表可以加强对各种基数估计算法理论分析的直观理解。

文章首先会对实验做一些说明，然后通过图表详细展示实验数据，最后会根据实验结果总结一些实践中有用的结论。

实验说明

算法选择

这次实验共选择了五种基数估计算法，分别是：

Linear Counting1
LogLog Counting2
Adaptive Counting3
HyperLogLog Counting4
HyperLogLog++ Counting5

算法实现使用我所在部门（阿里巴巴商家数据部）的开源基数估计算法库ccard-lib。

数据准备

哈希函数采用murmurhash32（HyperLogLog++采用murmurhash64）。

因实验结果的可靠性仅与哈希值的分布均匀性有关，而根据之前相关研究murmurhash对于顺序型数据具有良好的均匀性。因此为了简化实验，原始数据使用1-1,000,000无符号64bit整型的小端序表示。

下面将通过实验验证原始数据哈希后的均匀性。

实验过程

将原始数据经过murmurhash处理后，验证分桶数在210，212和216下数据的均匀性，即看各个桶的元素数量是否大致相等；同时验证各个桶中元素二进制表示的最长0前缀是否服从幂率分布。
对五种基数估计算法，分布记录210，212和216三种分桶数量下从1到1,000,000的估计值和相对误差值。取样点为100的整倍数，因此共10,000个采样点。
比较在210，212和216三种分桶数量下五种基数估计算法的误差走势。

实验

数据均匀性

下面首先验证原始数据经过哈希后基本服从均匀分布，从而满足各种基数估计算法的基本前提条件。下面的结果通过murmurhash32哈希值给出，实际中采用murmurhash64得到了基本一致的结论。

对于32bit哈希值，分桶数为2p时，用前pbit作为桶编号，剩下的32−p作为用于统计0后缀（因为均匀分布的假设，统计0后缀和0前缀是等效的，ccard-lib中除HyperLogLog++外采用统计0后缀的方式）的比特串。例如对于哈希值“01001010111010100101000000100100”，分桶数为210时，其桶编号为“0100101011”，即十进制的“555”，剩余部分为“1010100101000000100100”，零后缀长度为2。

验证分桶均匀性

下面通过柱状图分别给出210，212和216三种分桶下各桶元素数量的分布，在柱状图中bins的数量均为100，因此图中每个bin并不对应一个桶。

murmurhash32哈希值分布（p=10）

原图已失效

murmurhash32哈希值分布（p=12）

原图已失效

murmurhash32哈希值分布（p=16）

原图已失效

可以看到，三种分桶下数据均基本服从均匀分布。

0后缀长度的幂率分布性

按照理论预言，如果哈希均匀性足够好，哈希剩余部分的关键统计量（最长0后缀长度）应该大约服从底数为2的幂率分布。

下图中横坐标表示0后缀长度，纵坐标表示0后缀为此长度的哈希值个数。

0后缀长度分布（p=10）

原图已失效

0后缀长度分布（p=12）

原图已失效

0后缀长度分布（p=16）

原图已失效

可以看到在三种分桶下统计量分布符合预期。

通过以上分析可知实验数据满足基数估计算法关于均匀性的假设。

基数估计算法效果

下面给出五种基数估计算法的估计效果和误差走势。如未特殊说明，实验分桶数均为

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

强大的纯JS数据图工具-flot （累计阅读 4,217）
分享一些可视信息设计资源（累计阅读 4,155）
雅虎的悲惨世界 -- 往事不堪回首，悲剧涛声依旧【超大信息图】（累计阅读 3,943）
浅谈信息可视化――航空篇（累计阅读 3,666）
统计数据背后的真相 ― 读《How to lie with statistics》（累计阅读 3,576）
基于网站日志数据挖掘的用户访问行为模式可视化研究（累计阅读 3,532）
30个完美的图表设计欣赏（累计阅读 3,539）
好软件推荐 gnuplot 来做可视化数据（累计阅读 3,447）
惊现！表面下的隐藏信息――浅谈信息可视化（累计阅读 3,431）
浅啖图表参数化设计（累计阅读 3,276）