用Bloom Filter的方式统计网络流量

snnn的blog 2012-11-27 13:47:48 累计浏览 2,974 次

本机暂存

内容概览

作者从网站面临爬虫攻击和恶意访问的现实问题出发，想要高效统计每个IP的日访问量以识别机器人。传统的Map计数法可能消耗数百兆内存，而文章介绍了一种基于Bloom Filter思想的变体算法，可以在极低的内存占用（O(1)空间复杂度）下完成计数。

这个方案的核心是使用一个二维数组和多个独立的哈希函数。每次访问到来时，不是增加所有对应位置的计数器，而是只增加这m个计数器中值最小的那一个。这种方法巧妙地将Bloom Filter的“是否存在”判断，扩展为了“计数”的近似统计。当然，它继承了Bloom Filter可能存在的假阳性特点——可能误判某些低频IP为机器人，但可以通过调整数组大小和哈希函数数量来控制误差率。

文章还由此类比了《编程之美》中一个经典的微软面试题，并进一步提出了扩展问题：如果要统计的不是访问次数，而是IP的入/出流量，该如何设计算法？这为读者提供了更广阔的思考空间。

背景：

我现在在一个网站工作，每天都有很多网络爬虫和恶意攻击。我想根据http访问日志统计一下每个IP每天的访问次数，然后大于1万的都认为是机器人。现在寻求一个高效且实时的算法解决这个问题。

最简单的做法，就是用一个map来记录所有IP的访问次数。那么这可能会需要几百兆的内存。有一个更好的办法，可以在O(1)的空间复杂度中解决这个问题。

算法：

我们用一个m 乘 k 的二维数组来存放所有的计数值。此外，我们还需要m个两两独立的散列函数，每个散列函数将输入(即IP地址)散列到[0,k)范围内的整数。

伪代码如下：

int count[m][k];

int c=INT_MAX;

Object input ; // the ip;

for(int i=0;i!=m;++i){

int index=hash(i,input); //用第i个hash函数对input做hash。

c= std::min(c,++count[i][index]);

}

if(c>10000) printf("catch one robot");

由代码可以看出，每来一个input的时候，会同时增加m个计数器的值。一个更好的改进是，只增加这m个当中值最小的那个。例如7、5、4 变成 7、5、5。但是7、3、3必须变成7、4、4而不是7、4、3。

分析：

这是Bloom Filter的一个变种。原始的Bloom Filter算法中，hash对应的是0/1这样的一个bit。而此处把bit改成了一个整数。和Bloom Filter一样，它也存在假阳性的问题，就是，有些IP明明没有访问那么多次，但是我以为它有。降低假阳性率的方式就是提高m和k的数值。同时，和Bloom Filter一样，hash函数的选择也很关键。如果你把hash函数看成是带参数的随机变量，那么它应该尽可能的在值域中均匀、且相互独立。

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

多线程队列的算法优化（累计阅读 7,739）
从140秒到2秒的优化（累计阅读 3,923）
代码执行的效率（累计阅读 3,477）
蛋疼研究之怎样刷屏最快？（累计阅读 3,403）
计数和排序（累计阅读 2,567）
求任意自然数内的素数（累计阅读 2,520）
大数据过滤及判断算法 -- Bitmap / Bloomfilter （累计阅读 2,313）