从140秒到2秒的优化

超群.com的博客 2009-11-18 13:14:14 累计浏览 3,843 次

本机暂存

内容概览

作者从处理海量数字去重的场景切入：面对2亿个0到20亿之间的随机数字，需要统计其中的不重复记录总数。最初的思路是使用 Bloom Filter，但考虑到数据类型纯粹为数字，Bloom Filter 的开销显得偏重，于是转而采用更轻量级的 bitarray（位数组）来实现。

第一个版本基于 bitarray 的实现将处理时间从原来的 140 秒大幅压缩到了 2 秒。这种优化选择非常关键，因为它充分利用了数字数据的特点，用一个比特位直接映射一个可能的值（0 到 20 亿），从而在内存效率和速度之间取得了极佳的平衡。文章通过这个具体的优化案例，展示了如何根据数据特征选择合适的数据结构，对于处理类似的大规模数字去重或查找问题提供了直接的实践参考。

从2亿个0~2,000,000,000之间的数字样本中找出不重复的记录总数，首先想到的是bloom filter，转念一想既然全都是数字，bloom filter有点太重，bitarray也许更有效，于是第一个版本出来，部分代码如下：

ba = bitarray(212**4)
cnt = 0
for i in data:
    if (not ba[i]):
        cnt += 1
        ba[i] = True
print cnt

大概需要140s左右，觉得if (not ba[i]):这个比较费，改了第二版：

for i in data:
    ba[i] = True
print ba.count()

速度有所提升，到了120s左右，开始打起多核运算的主意了，山寨了一个map-reduce，首先通过maper把数据按照除4得余分成4份：

def maper(data):
    map_data = (array('I'),array('I'),array('I'),array('I'))
    for i in data:
        m = i % 4
        map_data[m].append(i)
    return map_data

然后起了一个4个进程的woker pool分别计算，最后把结果汇总：

def worker(data):
    counter = bitarray(256**4)
    for i in data:counter[i] = True
    return counter.count()
 
p = Pool(4)
result = p.map(worker, data)

速度提高明显，到了50s左右，这个做法的问题是两次遍历：map的时候一次、reduce的时候又一次，于是开始想办法解决，把文件直接分开运算，不再map，把最后的结果做一下位或再计数：

p = Pool(4)
result = p.map(worker, data)
print (result[0] | result[1] | result[2] | result[3]).count()

到了26s左右，可能Python在进程间交换大数据量效率不是太好，再优化的空间有限，想起之前用Python的科学运算库做过数据挖掘，能不能用那个库试试，于是有了NumPy的版本：

import numpy as np
print len(np.unique(np.fromfile('/path/to/data.dat', np.uint32)))

全部程序就这两行，速度到了12s，让人崩溃，NumPy的底层大多是C的实现，对代码做了一个profile，发现NumPy用了sort，有点浪费，如果我用C实现一部分功能的话效果应该会不错，注意到代码中有for i in data，data中有2亿条，就循环调用了2亿次，尝试把这个调用都封装在C里面，使用C级别的循环，于是用C扩展了一下bitarray包：

static PyObject *
bitarray_fromarray(bitarrayobject *self, PyObject *pyo)
{
    unsigned int *l;
    idx_t n1;
    Py_ssize_t nbytes, nitems, i;
    if (PyObject_AsReadBuffer(pyo, (const void **)&l, &nbytes) != 0)
        return Py_False;
    nitems = nbytes/sizeof(unsigned int);
    for (i=0; i<nitems; i++) {
        *(self->ob_item + l[i] / 8) |= ((char) 1) << (l[i])%8;
    }
    n1 = count(self);
    return PyLong_FromLongLong(n1);
}

直接读取文件buffer到bitarray，python程序就变成了：

from bitarray import bitarray
counter = bitarray(212 ** 4)
fp = open('/path/to/data.datbk', 'rb')
un = counter.fromarray(fp.read())
print un

一共5行代码，速度到了2s内，收工。

建议继续学习

深入理解Nginx之调试优化技巧（累计阅读 8,160）
读高性能Mysql-操作系统和硬件优化（累计阅读 6,380）
SVN Hook造成SVN提交速度慢的问题（累计阅读 6,220）
MYSQL分页limit速度太慢优化方法（累计阅读 5,780）
44个精彩的物理趣题（累计阅读 4,420）
面试题：火车运煤问题（累计阅读 4,061）
[MySQL优化案例] — slave延迟很大优化方法（累计阅读 3,921）
google group varint 无损压缩解压算法的高效实现改进版（累计阅读 3,900）
快些,在快些,perl的小优化（累计阅读 3,540）
Reddit排名算法工作原理（累计阅读 3,300）