大数据过滤及判断算法 -- Bitmap / Bloomfilter

曦轩技术茶话小屋 2016-03-18 17:03:31 累计浏览 2,307 次

本机暂存

内容概览

这篇讲的是如何用极低的空间成本，高效判断一个元素是否存在于海量数据集合中。作者从一道常见的面试题出发，引出了两个核心数据结构：Bitmap与Bloomfilter。

文章首先剖析了Bitmap，它本质上就是一块连续的内存位图，每个bit（0/1）直接对应一个元素的“无/有”。作者展示了如何通过简单的位运算（`/8`和`%8`）定位到具体的bit位，并给出了一个完整的C++代码示例，用于在一个10万规模的集合中精确查找缺失的数字。Bitmap的优点是100%准确，但缺点是所需内存与元素值的范围直接相关。

接着，文章重点介绍了Bloomfilter。它通过多个哈希函数对同一个值进行多次哈希，将结果映射到不同的bit位上。这种设计能用远小于Bitmap的内存处理更海量的数据，但代价是存在理论上的误判——可能将不在集合的元素误判为“存在”。作者解释了误判率与哈希函数数量、内存大小的关系，并提供了包含三种经典哈希函数（BKDR、FNV、DEK）的实现代码。

文末，作者还留下了一个思考题：对于“从1到100万无序数中找出被随机取走的N个数”这个问题，除了这两种方法，还可以如何利用数学性质（如求和、求积）来间接求解？这展示了不同场景下算法选择的灵活性。

今天，有个同学向我咨询大数据的一些面试题，其中一类比较有代表性比如判断是否在集合内，比如10个url，判断一个url是否在集合内，还比如有个1~100万个连续无序数字，随机取出里面的N个，求这N个数字等等。这类问题都需要一个大的数据集合，而且每个数据单元都很小，比如一个int 。很大程度上，这类问题可以用Bitmap或者Bloomfilter来做，基本思想就是开辟一块大内存，然后利用一个byte里的8个bit来实现按位标记元素。因为地址空间都是连续的，所以查找都是O(1)的。这里需要说的是，BloomFilter判断属不属于集合，在理论上是存在误判的，如果要求数据100%正确，则不要使用BloomFilter。

进入正题，Bitmap正如其名，就是一块内存，内存是一个一个连续的位图，每一个位通过0、1代表一个元素的有无。比如数字为N的数字对应到Bitmap就是第N/8个byte的字节，和第N%8个01位，这么映射。所以通过检测对应的bit位即可知道数据在不在集合内，而且能保证正确。直接上代码 :

#include <cstdlib>
#include <iostream>
#include <algorithm>
#include <vector>
#include <stddef.h>

#include <memory.h>

#define BYTES 12500

int main()
{
	srand((unsigned int)time(NULL));	

	size_t total_numbers = 100000;

	typedef std::vector<int> SetContainer;
	typedef std::vector<int>::iterator SetIterator;

	SetContainer numbers;
	numbers.reserve(total_numbers);

	int r1 = rand() % total_numbers;
	int r2 = r1 + 1000;

	// generate total_numbers-2 numbers
	for(int i=0;i!=total_numbers;++i) {
		if (i!=r1 && i!= r2)
			numbers.push_back(i);
	}

	std::cout<<"["<<numbers.size()<<"] insert ok";	
	std::cin.get();

	// shuffle
	std::random_shuffle(numbers.begin(),numbers.end());

	unsigned char *bitmap = (unsigned char*)malloc(BYTES);
	memset(bitmap,0,BYTES);
	for (SetIterator itr=numbers.begin();itr!=numbers.end();++itr) {
		ptrdiff_t forward = (*itr) / 8;
		size_t offset = (*itr) % 8;
		bitmap[forward] |= (0x80UL >> offset); 
	}

	std::cout<<"Bitmap build ok";	
	std::cin.get();

	for (int j=0;j!=BYTES;++j) {
		if (bitmap[j]!=0xFF) {
			std::cout<<"FIND ";
			unsigned long num = j * 8;
			unsigned char check = bitmap[j];
			unsigned char bit = 0;
			while(bit!=8) {
				if (0 == (check&(0x80UL>>bit)))
					std::cout<<"["<<(num+bit)<<"] ";
				bit++;
			}
			std::cout<<std::endl;
		}
	}

	std::cout<<"DONE";

	std::cin.get();

	free(bitmap);

	return 0;
}

BloomFilter，是由 Howard Bloom 在 1970 年提出的二进制向量数据结构，适合与比Bitmap更多量的数据，通过图片看一下方法流程 :
1、初始化一块大内存用于存放01标志位：
原图已失效

2、通过使用N个hash函数(N==3)，对同一个值Hash多次哈希，然后同Bitmap一样映射到Bloomfilter中去，

原图已失效

3、检测时，同样通过N次哈希，在映射的位中去找，并要保持映射的每一位都是1的情况下，即检测处包含关系。正如前面说的，BloomFilter可能有误判，误判的几率取决于Hash函数的个数，Hash函数冲撞的概率，以及Bloomfilter开开辟的内存大小。Hash函数的个数要取个合适的值，大了会造成效率问题，少了可能误判高，理论5~10个之间，工程里用3~5个，具体多少可以视需求而定。

原图已失效

代码：

#include <cstdlib>
#include <cstdio>
#include <iostream>
#include <algorithm>
#include <vector>
#include <stddef.h>

#include <memory.h>

#define BLOOM (1024UL*1024UL*1024UL) // 1G
#define HASH_RESULT 3

typedef unsigned char BloomFilter;

typedef struct __hash_result {
	size_t N; 	// how many result
	size_t result[0];
}HashResult;

/* Brian Kernighan & Dennis Ritchie hashfunction , used in Java */
size_t BKDR_hash(const char* str)  
{  
	register size_t hash = 0;  
	while (size_t ch = (size_t)*str++)  {         
		hash = hash * 131 + ch; 
	}
	return hash;
}

/* Unix System Hashfunction , also used in Microsoft's hash_map */
size_t FNV_hash(const char* str)  
{  
	if(!*str)
		return 0;  
	register size_t hash = 2166136261;  
	while (size_t ch = (size_t)*str++) {  
		hash *= 16777619;  
		hash ^= ch;  
	}  
	return hash;  
}  

/* Donald Knuth Hashfunction , presented in book <Art of Computer Programming> */
size_t DEK_hash(const char* str)  
{  
	if(!*str)  
		return 0;  
	register size_t hash = 1315423911;  
	while (size_t ch = (size_t)*str++)  {  
		hash = ((hash << 5) ^ (hash >> 27)) ^ ch;  
	}  
	return hash;  
}  

typedef size_t (*HASH_FUNC)(const char*);

HASH_FUNC HASH[] = {
	BKDR_hash,FNV_hash,DEK_hash
};


void bloom_filter_mark(BloomFilter* bf, const char* v)
{
	HashResult *hr = (HashResult*)calloc(1,sizeof(HashResult)+(sizeof(size_t)*HASH_RESULT));

	for (int i=0;i!=HASH_RESULT;++i) {
		hr->result[i] = (HASH[i](v)) % BLOOM;
		// set the binary bit to 1
		bf[hr->result[i]/8] |= 0x80UL >> (hr->result[i]%8);
		//printf("**%lu|hash-%d[%lu]|offset[%X]\n",HASH[i](v),i,hr->result[i],bf[hr->result[i]/8]);
	}

	free(hr);
}

bool bloom_filter_check(BloomFilter* bf, const char* v)
{
	HashResult *hr = (HashResult*)calloc(1,sizeof(HashResult)+(sizeof(size_t)*HASH_RESULT));

	size_t in = HASH_RESULT;
	for (int i=0;i!=HASH_RESULT;++i) {
		hr->result[i] = HASH[i](v) % BLOOM;
		//printf("**%lu|%X\n",hr->result[i],bf[hr->result[i]/8]);
		// check this bit is "1" or not
		if (bf[hr->result[i]/8] & (0x80UL >> (hr->result[i]%8)))
			in--;
	}

	free(hr);
	return in == 0;

}

int main()
{
//	std::cout<<BKDR_hash("0")<<std::endl;
//	std::cout<<DEK_hash("0")<<std::endl;
//	std::cout<<FNV_hash("0")<<std::endl;

	BloomFilter* bloom = new (std::nothrow) BloomFilter[BLOOM];
	if (NULL == bloom)
		printf("No Space to build BloomFilter\n"),exit(0);

	printf("BloomFilter Calloc Memory Ok\n");

	for(int i=0;i!=1000000;i++) {
		char buf[16] = {0};
		sprintf(buf,"%d",i);
		bloom_filter_mark(bloom,buf);
	}
	printf("BloomFilter Build Ok\n");

	for(int i=999995;i!=1000010;i++) {
		char buf[16] = {0};
		sprintf(buf,"%d",i);
		if (bloom_filter_check(bloom,buf))
			printf("[FOUND] %d\n",i);
	}

	delete bloom;

	return 0;
}

以上就是解决大数据判断在不在集合的通用方法，特定场景可以做一些优化。大家可以思考一下，本文开头的10个数字取出两个的问题，如果不用bitmap或者bloomfilter，可以怎么解决？引导一下，可以把所有数字乘起来和加起来，再用10000的阶乘和总和去减一个，就得到两个方程 x+y = M; x*y= N;不过这需要用string大整数阶乘的问题，还有比较耗内存，大家可以思议考一下更好的。。。。

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

从140秒到2秒的优化（累计阅读 3,921）
Hopscotch Hashing （累计阅读 3,018）
用Bloom Filter的方式统计网络流量（累计阅读 2,970）