【分布式系统工程实践】随机访问KV存储引擎

NOSQL Notes 2011-01-29 22:32:55 累计浏览 3,181 次

本机暂存

内容概览

这篇讲的是如何为一个最基础的随机访问KV存储引擎设计数据存储方案。核心矛盾在于磁盘适合顺序读写，但应用需要的是快速的随机读写。

作者的思路很直接：所有写入（包括更新和删除）都以追加方式顺序写入数据文件。为了支持快速读取，在内存中维护一个索引，记录每个Key对应Value在数据文件中的最新位置。对于删除操作，不是真的去文件里找数据擦除，而是同样追加一条“删除标记”，这样读取时遇到标记就知道数据已失效。

这种设计的巧妙之处在于，它用“追加写”这个对磁盘最友好的方式，模拟出了上层需要的随机写能力，代价是需要后台进行文件压缩来真正回收空间。同时，为了尽可能缩小内存索引的体积，作者提出可以只支持64位整数作为Key（其他类型可哈希转换），这是一个典型的用约束换性能的工程权衡。

整个实现清晰地展示了如何在硬件特性限制下，通过简单的抽象（追加日志+内存索引）构建出一个实用的存储原语，为理解更复杂的LSM-Tree等结构打下了基础。

Key-Value系统只需要支持简单的随机读(Get)，写(Put)和删除(Del)操作。由于磁盘是顺序存储介质，因此可以往数据文件追加Key-Value记录并在内存中存放记录所在的磁盘位置，即索引信息。由于对同一个Key的更新(Put)操作以最后一个为准，内存中的索引只需要记录最新的Key-Value对位置即可，而对于删除操作，也是往数据文件追加一个删除记录。由于内存的大小有限，需要尽可能减小索引记录的大小，比如只支持64位的整数Key（其它类型的Key可以通过md5运算得到64位的整数值）。

内存中的索引信息包括64位的Key（8字节），Key-Value记录所在的磁盘位置（8字节），Key-Value记录在磁盘中的长度（4字节），另外，假设采用Hash的方式组织索引信息并采用采用链地址法解决冲突，每个索引项在Hash表中占用额外的8字节，最后，考虑到64位机的内存对齐，可以大致认为每个索引项占用32字节的内存空间，8GB内存存放的索引项条数为8GB / 32 = 2.5亿。如果每个Key-Value记录的平均大小为1KB，系统设计的磁盘内存比为1KB / 32 = 32 : 1，16GB的内存对应512GB的磁盘数据，满足大多数线上服务的需求。存储引擎需要实现如下几种操作：

读取操作(Get)：先通过内存中的Hash索引找到Key-Value对的磁盘存储位置，接着执行一次随机读取操作。

写操作(Put)：无论是插入还是更新已有的Key-Value记录，只需要将新数据追加到数据文件末尾，并更新内存中的Hash索引信息。

删除操作(Del)：将删除操作追加到数据文件末尾，并删除内存中的Hash索引项。

如果不对索引信息进行持久化，系统宕机重启时需要重新读取所有的数据以重建索引，宕机恢复时间很长。将索引信息以同样的方式追加到索引文件中，写操作及删除操作的流程修改为：a, 追加数据到数据文件；b, 追加索引信息到索引文件；c, 更新内存中的Hash索引结构。当机器宕机时，通过读取索引文件来重建内存中的索引表，由于a和b两个操作不是原子的，可能出现数据文件更新但是索引文件没有更新的情况，因此，宕机恢复时除了读取索引文件的索引信息外，可能还需要读取数据文件中的最后几条记录。

更新和删除操作会产生很多的无用数据，这些垃圾数据的回收是通过定时合并操作实现的，一般可选择每天服务的低峰期，比如凌晨两点启动每日合并任务。

定时合并(Merge)：采用0/1目录的方式，假设当前的服务目录编号为0，合并过程如下：

1, 关闭目录0的数据文件和索引文件，后续的更新操作（包括合并过程中的更新操作）都写入目录1中新开的文件；

2, 顺序读取目录0的索引文件，对每一个索引项，对比是否与内存中的内容一致，如果一致，说明是最新的有效索引，将对应的数据追加到目录1中的数据文件，同时生成相应的索引信息追加到目录1的索引文件中并修改内存中的索引项；

3, 合并过程结束时可以回收目录0中的数据文件和索引文件；

由于合并过程中可能有更新操作，且都需要追加目录1中的索引文件，因此，需要将索引文件编号分成两段，比如合并过程中写入的索引文件从1开始编号，最大不超过1000；更新操作写入的索引文件从1001开始编号。

上述介绍的存储引擎的特点就是简单，满足特定类型的应用，且随机读取基本做到了最优。当然，工程实践中还有很多工作需要细化，比如将数据分组从而利用多块磁盘，定时合并过程中记录进度从而宕机后可以从上次合并的位置开始继续执行，追加数据和索引文件是否fsync，如何通过异步group commit写磁盘保证不丢数据的前提下不损失并发能力，等等。总之，表面看似简单的事情做到极致往往很不简单。

说明：第一次接触随机存储引擎是在百度，一位目前在创业的大牛的作品，目前douban的Beansdb也使用了类似思想。另外，可以参考一篇文章：Bitcask: A Log-Structured Hash Table for Fast Key/Value Data

建议继续学习

分布式缓存系统 Memcached 入门（累计阅读 16,141）
Zookeeper工作原理（累计阅读 12,040）
GFS, HDFS, Blob File System架构对比（累计阅读 10,400）
Zookeeper研究和应用（累计阅读 9,400）
一致性哈希算法及其在分布式系统中的应用（累计阅读 9,100）
分布式日志系统scribe使用手记（累计阅读 8,900）
分布式哈希和一致性哈希（累计阅读 8,740）
HBase技术介绍（累计阅读 8,000）
分布式系统的事务处理（累计阅读 7,320）
Memcache分布式部署方案（累计阅读 6,740）