全部移动开发后端数据库 AI 算法安全 DevOps 前端设计开发者

首页 / 算法

关于大区间过滤优化内存设计

淘宝网综合业务平台团队博客 2012-12-11 13:36:09 累计浏览 2,698 次

本机暂存

标签 Java 内存优化数据结构数组

内容概览

这篇讲的是在检索场景下，如何优化“大区间过滤”时的内存结构设计。作者指出，传统做法中以 docId 为下标存储域值的方式存在内存浪费，尤其在域值（如日期类型）重复率很高的场景下。

核心方案是引入两个互补的数组：第一个数组以域 Term 的遍历位置（Position）为下标，直接存储对应的域值，这利用了域值在遍历过程中天然有序的特点；第二个数组则以 docId 为下标，存储该文档在第一个数组中的对应位置。这样一来，大量重复的域值（例如“20101202”）在第一个数组中只存储一次，通过第二个数组的间接映射，就能为每个 docId 快速定位到其域值。

作者通过示意图和实际业务分析说明，对于时间这类重复率极高的域，该设计能显著压缩内存占用。整个方案的精髓在于通过空间换时间的思想，巧妙地将高重复的域值“去重”存储，并用一次额外的间接查找换取整体内存效率的提升。

主要对一般docId为下标对应域值的结构做了改造，如果大家有更好的建议，欢迎大家提议和拍砖。

主要思路：

生成一个下标为
域 Term 遍历的Postion 且值为域值的数组:

A[p]=field value

因为域值并不会像docId一样为唯一键递增，所以在创建的时候

初始化:

Int [] A = new Int[reader.maxDoc()]

结束的时候如果 p<A.length(因为肯定有多个DocId对应相同域值)

则释放那些空闲空间

整个内存使用率取决于该值的重复率，重复越多则内存越节省，从我们接入绝大多数业务的类型需要进行大区间过滤的使用场景看都是最近几年的时间类型，类似于20101202，所以这样的数据重复率还是很高的。

第二个Int数组是以DocId为数组下标，域的遍历Postion为值的数组列表。

这样做的好处是将原来如果域为Long型的数组转变成了Int数组，节省了一倍的内存开销。

另外这里不是一次性初始化开辟reader.maxDoc()大小的数组，而是通过懒加载逐步将这个数组列表填满。

实现方式：

数组个数：N = reader.maxDoc()/K （K为可配置大小，主要是将一个大数组分隔成多个小数组的关键因子，设置的小理论上会更节省内存），如下所示：

每次查询例如 l_t:[ 20101202 TO 20111202]，查询这个区间内的DocId分布在那几个数组内，然后将DocId减去归属第N个数组的起始偏移量做为数组下标，域值的遍历Postion做为值填充数组。

如果下一个区间查询
例如是l_t:[20091202 TO 20101203],如果恰巧归属的数组已经创建过了，那么只需要填充20091202 To 20101201的归属数组，否则创建数组列表中还没有创建过的数组，并填充相应域的遍历Postion值。

接下来的查询如果是在已填充的区间内的区间查询则不需要再填充，其他查询情况以此类推。

最坏情况是查询条件导致这个数组列表的所有数组全部生成并填充完毕。

大小为Int[maxDoc]。

查询过滤：

根据查询区间的最小值和最大值，查询出2值对应Term遍历的postion值, Low=minPostion,

High=maxPostion

在根据query后得到的docList 进行过滤，通过docId 定位到数组列表的对应数组单元的域值Term 的postion 值，如果满足
minPostion<=currentPostion<=maxPostion则代表满足区间。（因为sortable的域在构建索引已经是按照大小排序好存储）

将获取到的pn 跟之前的minPostion和maxPostion比较，发现只有p2<p3<p5,那么满足条件的doc有doc3,doc4,doc5,doc7,doc8 doc9，其他的将其过滤。

最后附上获取域Term的postion代码

Java代码

TermDocs termDocs = reader.termDocs();
TermEnum termEnum = reader.terms (new Term (field));
long[] mterms = newlong [reader.maxDoc()];
try {
do {
Term term = termEnum.term();
if (term==null || term.field() != field || t >= mterms.length) break;
// store term text
mterms[p] = NumberUtils
.SortableStr2long(term.text());
termDocs.seek (termEnum);
while (termDocs.next()) {
retArray(termDocs.doc(),p);//填充以(docId-offset)为下标，postion为值的数组列表。
}
p++;
} while (termEnum.next());
} finally {
termDocs.close();
termEnum.close();
}
if (p < mterms.length) {
// //terms 在docment中有大量重复,那么p肯定远小于maxdoc,那么截断多余出来的内存空间
long [] terms = newlong [p];
System.arraycopy (mterms, 0, terms, 0, p);
mterms = terms;
}

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

SmartSprites - 命令行形式的CSS Sprites生成器（累计阅读 123,894）
Java开发岗位面试题归类汇总（累计阅读 22,155）
红黑树并没有我们想象的那么难(上) （累计阅读 21,494）
android 开发入门（累计阅读 19,527）
我的PHP，Python和Ruby之路（累计阅读 13,146）
HashMap解决hash冲突的方法（累计阅读 12,652）
为什么算法这么难？（累计阅读 12,397）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,902）
加州求职记（累计阅读 11,561）
海量数据面试题举例（累计阅读 11,114）