挑战邮箱搜索

福林雨-博客 2010-09-25 09:42:51 累计浏览 3,677 次

本机暂存

内容概览

这篇讲的是作者在连续完成论坛搜索和音乐搜索的技术实践后，如何向邮箱搜索这一更复杂的领域发起挑战。

邮箱搜索看似基础，但背后涉及大量独特难题：邮件内容格式多样（纯文本、HTML、附件）、需要实时索引、且用户对搜索速度和准确性都有极高期待。作者从这些具体场景出发，分享了在构建邮箱搜索系统时的核心思考与技术选型。文章深入探讨了如何处理海量邮件的实时索引，如何设计分词策略以适应邮件特有的内容与格式，以及如何平衡搜索的召回率与精确度。其中，关于如何高效解析并索引邮件附件内容的思路，体现了对实际业务痛点的深刻把握。

对于从事搜索、数据工程或后端开发的技术人员而言，这篇文章不仅提供了一个邮箱搜索系统的实现案例，更展现了面对复杂搜索需求时，从问题分析到方案落地的完整决策过程。

做完论坛搜索和音乐搜索（续），接下来开始做邮箱搜索。

邮箱搜索与其它的搜索引擎最大的区别莫过于每个用户只能搜索自己的邮件内容。搜索引擎一般都是开放性的搜索，每个用户都有权访问所有的索引项目，每次搜索请求都会在所有的索引项目中进行匹配。而邮箱搜索是私密搜索，每个用户只能访问索引中很小的一部分数据，相应的，也就可以将每个用户的索引单独存放，以加快建索引和搜索的速度。

在最开始做方案的时候，因为种种原因，并没有选择给每个用户单独建一个索引的方案。毕竟，每个做方案的人在面临要建立上亿个目录的方案的时候，都会犹豫一下的。于是开始计算总的原始数据量，总的索引数据量，平均每个用户的原始数据量和索引数据量，每天的更新量，每天的搜索量等数据，以此来规划索引的布局和更新的策略。但在尝试了好几种布局方案之后，才发现无论如何布局，严重失衡的读写比例都会导致负载不均衡，更何况 lucene 的一些做法，会导致大量的额外数据读写，浪费本来已经很宝贵的IO。最后，只得退回到最初的想法上来。

定下来给每个用户单独建立一个 lucene 索引，接下来要做的事情当然就是如何安置这么多个 lucene 索引目录了。路径 Hash 是最容易想到的办法，而事实是，到现在为止我们也没有找到更好的途径。服务器是 Centos，文件系统是 Ext3，所以每个目录最多不能超过 1024 个子目录或者文件。单个目录下两级 Hash 子目录，1024*1024 已经是百万了，如果 Hash 算法比较均匀，每个子目录下放置 100 个左右的用户，那么就可以存放 1 亿用户的索引，基本满足了预算的要求。

为了方便上线部署，我们抽象了一个 node 节点的概念：一个 node 由一个索引目录及Hash子目录作为存储，一个或多个建索引进程更新索引，一个搜索进程对外提供搜索服务，再加上一些 memcached， memcacheq，memcachedb，mysql 以及 monitor 等辅助进程组成的独立的节点。每台服务器上根据负载可以部署一个或多个这样的节点。机器出现故障后，如果恢复所需的时间较长，而存储并没有损坏的情况下，可以将存储直接接到备份的机器上，重启所有的进程后，继续提供服务。

这么多用户在同一台机器上，并发的搜索量还好说，因为邮箱用户并不都是搜索的重度用户，麻烦的是并发的更新。邮件的到达和一些必要的更新操作，底层收发系统通过一个 memcacheq 通知给搜索系统，建索引进程读取 mq 里的消息，到指定的地方获取邮件内容，调用 java mail 库进行解信，用 IK 进行分词（词库来自：新浪拼音输入法），然后更新索引。为了支撑巨大的更新，我们在同一个 node 上启动了多个进程，每个进程又启动了多个线程进行并发的更新。为了避免可能的 lucene 锁争用，我们在打开 lucene 索引前，还使用 memecache 对路径进行加锁；为了提高更新效率，我们将同一个用户的多封邮件打包，提交给某一个线程进行处理。大部分的情况下，这种策略都运行的很好，但也有意外：如果更新索引的过程出现了某种可恢复的错误，本次更新涉及到的所有的消息都会回写到 memcacheq 队列里。而这些回写，很可能会打乱正常的用户到信次序（某个用户多个消息批量回写也有可能被正常的更新打乱），最终在队列里形成诸如 ABACBCACB 这样的交叉消息。一旦某个用户上一次的更新还未完成，下一个线程就必须等待，这样的交叉更新，会严重的拖慢整体的更新速度。最后，我们也只能将回写队列与正常更新队列分开，单独为回写队列起一个处理进程，work around 吧。

起初在 12k 转速的 SAS 盘上做搜索压力测试，随机抽取用户，单个 node 能够很轻松的跑到 200 并发。可是最终的线上机器，为了节约成本，使用的是 7.2k 转速的 SATA 盘，还做了 RAID5 ，IO 随机小文件读取的瓶颈太明显了，随机抽取用户，连 50 并发都跑不上去。于是继续想办法。。。

（未完待续）

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

如何成为Python高手（累计阅读 54,992）
由浅入深探究mysql索引结构原理、性能分析与优化（累计阅读 16,523）
Linux 性能监控、测试、优化工具（累计阅读 13,011）
include(“./file.php”)和include(“file.php”)区别（累计阅读 12,789）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,908）
Rolling cURL: PHP并发最佳实践（累计阅读 11,488）
关于使用STL的红黑树map还是hashmap的问题（累计阅读 8,876）
jQuery性能优化指南（累计阅读 8,819）
提升磁盘IO性能的几个技巧（累计阅读 8,512）
关于PHP的编译和执行分离（累计阅读 8,345）