全部移动开发后端数据库 AI 算法安全 DevOps 前端设计开发者

首页 / 数据库

TokuMX使用小计

乱象，印迹 2014-11-20 23:34:32 累计浏览 2,213 次

本机暂存

标签 MongoDB NoSQL TokuMX

内容概览

作者面对一个实际痛点：MongoDB存储运行日志时，三个月数据就占用近100G磁盘，急需更高效的存储方案。他最终选择了TokuMX——一款声称能节省90%空间并大幅提升性能的MongoDB分支。

迁移过程非常直接，使用标准工具导出再导入即可。实际效果令人惊讶：原先102G的数据迁移到TokuMX后，仅占用2.2G，导入速度提升至少10倍，查询性能保持稳定。文章分析了TokuMX背后的关键技术：一是存储层的高效压缩，二是用分形树索引替代传统的B树，通过在节点内设置缓冲区并批量写入，来大幅提升写入效率。

除了分享这次迁移实践与技术原理，作者还附上了官方介绍文档、第三方性能评测等参考资料，为想深入了解或尝试的读者提供了入口。

最近因为工作的缘故，接触了TokuMX，尝试下来感觉不错，值得介绍给大家。

事情的起因是要解决MongoDB的问题。系统中需要保存程序输出的运行信息，这类信息比程序语言的log更高级，但又不如业务操作日志高级，是某些时候发现问题的关键证据，所以必须保存。因为格式不太规范，又需要方便检索，所以文档型NoSQL的MongoDB是比较好的选择。

但是，选择MongoDB就必然会面对磁盘空间的问题。我们的数据大概是这样的：每天的数据量不到200万条，单条数据的平均大小不超过4k，但MongoDB存一个月的数据就消耗了接近40G，最近三个月的数据则需要接近100G。限于具体的硬件环境，只能保存最近三个月的数据，但这无法满足业务需求，所以必须另想办法。

最终我们选定的方案是TokuMX。它是一款开源的、高性能的MongoDB发布(distribution)，在提供与MongoDB完全兼容的客户端、API的同时，号称可以减少90%的存储空间，同时提供20倍的性能提升。我也了解到，已经有一些生产系统在使用TokuMX，反馈不错(比如这里和这里)。

经过我的测试，从MongoDB迁移到TokuMX非常简单：用mongodump将原有数据导出，再在安装了TokuMX的机器上mongorestore即可。原先用MongoDB需要102G的数据，采用默认的zlib压缩方式导入TokuMX之后，只有2.2G，同时导入速度大大提高(至少有10倍的提高)，而查询性能没有降低(QPS在2位数左右，使用索引)。这个对比是我不敢想像的，它直接解决了现在的问题。

对着这份数据，我不免好奇TokuMX究竟使用了怎样的技术？就我现在的了解，减少磁盘空间占用主要是在存储层使用了压缩方式(TokuMX宣称，如果不使用压缩，TokuMX的磁盘占用也比MongoDB少10%左右)。这种思路不稀奇，5.x版本的MySQL中，如果设定file_format为Barracuda，也可以直接对表做压缩，同时外部操作不需要做任何变化。TokuMX的提高写入速度则相当有趣，按照TokuMX的做法是使用分形树索引(Fractal Tree Index)，替代了所谓“已经有40年历史的B树索引”，按照Wiki上的说法，TokuMX是分形树索引进行商业应用的典型。

“分形”是一个数学上的概念，大略来说，指的是“事物的每一部分都近似整体缩小后的形状”。TokuMX的分形树索引，严格说起来更像“B树 + 批量写入”，与B树的不同在于，分形树的每个内部节点都带有自己的缓冲区，它存储尚未落实(pending)到叶子节点的数据，默认情况下写入只会到缓冲区，缓冲区填满之后会把所有的写操作刷(flush)下去。

我顺手翻译了TokuMX的一篇介绍文章，供大家参考。

再附两份参考资料

percona的TokuDB和TokuMX介绍文档

http://www.percona.com/live/london-2013/sessions/fractal-tree-indexes-theory-practice

Facebook的人做的性能对比评测

http://smalldatum.blogspot.com/

推特上的 @BohuTang 应该是 TokuTek 的贡献者，人非常好，大家有问题也可以和他讨论。

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

HFile存储格式（累计阅读 15,970）
hbase运维（累计阅读 14,921）
什么是全栈工程师？（累计阅读 14,036）
hbase介绍（累计阅读 12,366）
HBase技术介绍（累计阅读 8,071）
SQL vs NoSQL：数据库并发写入性能比拼（累计阅读 7,998）
Redis作者谈Redis应用场景（累计阅读 7,669）
HBase随机写以及随机读性能测试（累计阅读 7,545）
Web应用的缓存设计模式（累计阅读 7,440）
Using MySQL as a NoSQL （累计阅读 7,105）