分布式系统的数据结构

NOSQL Notes 2011-01-29 22:03:32 累计浏览 6,123 次

本机暂存

内容概览

这篇文章梳理了分布式系统中常用的数据结构及其应用场景。作者将数据结构明确分为两类：一类是解决通用查找、更新和删除操作的“通用型”，包括数组、队列、堆栈、链表、平衡二叉树、B树和哈希表；另一类则是针对特定问题的“专用型”，例如图、Trie树、堆以及后缀数组。

这种分类方式揭示了数据结构选型背后的核心逻辑。在设计分布式系统时，并非所有数据结构都平等地适用于所有场景。通用型结构是构建各类服务的基石，保证了基础操作的效率。而专用型结构，如Trie树在快速检索前缀、图在处理复杂关系网络时的不可替代性，则为解决特定性能瓶颈或复杂逻辑提供了精准的工具。文章清晰地划定了二者的边界，帮助读者在面临实际技术选型时，能根据问题本质快速定位最合适的解决方案。

常用的数据结构包括：数组，队列，堆栈，链表，树（平衡二叉树，B树，Trie树，堆），哈希表，图，后缀数组，等等。其中，堆，图结构，Trie树及后缀数组解决特定问题，其它数据结构解决通用的查找，更新，删除操作。

查找，更新和删除操作一般是O(1)，O(logN)或者O(N)，通用的数据结果大致可分为如下三种：

1, 极端型；某些操作的算法复杂度为O(1)，另外一些算法复杂度为O(N)，比如有序链表查找复杂度为O(N)，更新和删除为O(1)；

2, 平衡型：主要操作的复杂度为O(logN)，比如平衡二叉树及各种变种，B树的查找，更新和删除操作的复杂度都为O(logN)；

3, 取巧型：主要指哈希表，最差情况下的算法复杂度虽然很高，但是只要hash函数计算hash值比较随机，插入、更新和删除操作都可以在常数时间内完成，当然，有所得必有所失，哈希数据结构牺牲的是范围查询功能；

虽然数据结构很多，然后当数据量变大时，比如达到百万级别或者千万级别时，工程实践中常见的数据结构一般有两种：Hash表与平衡树，平衡树主要使用B树，这时因为B树同时适应磁盘和内存。Hash数据结构实现简单，高效，可以高效地执行根据主键的插入、删除以及查找操作，当然，相比B树，Hash数据结构也有一些弊端，比如不支持范围查询，不支持对整个数据数据执行瞬时的快照操作。分布式存储系统从本质上就是实现分布式Hash表或者分布式B+树。

普通的Key-Value系统可以认为是一个分布式Hash表。Hash算法有两种，模N（N为机器数）Hash或者一致性Hash。其中，模N哈希的主要问题在于机器上下线时机器数变化导致所有的数据都需要重新分布，而一致性Hash用来解决这个问题。先将数据通过Hash算法分成若干个桶，每台工作机服务这些桶中的数据。由于采用Hash算法数据分布天然比较均匀，不需要考虑多个桶之间的数据动态调整，大大降低了系统设计的复杂度。假如采用一致性Hash分桶，每个桶内使用Log-Structured Hash Table存储数据，系统的数据结构如下：

1, Hash空间组织成一个环，环上相邻节点包含的数据构成一个桶；比如Hash空间为A, B, C，那么有(A, B], (B, C], 以及(C, A]三个桶；

2, 每个桶内的数据结构为Log-Structured Hash Table；当然，可根据需要修改每个桶的单机数据结构；

3, 桶是负载均衡和任务调度的基本单元；

4, 每个桶存放3个副本；

类似Bigtable这种同时支持随机读取和顺序扫描的系统实现了分布式B+树数据结构。B+树按照顺序将数据划分为一个一个的桶（对应Bigtable的子表），顺序划分可能分布不均匀，需要动态调整，这就是为什么Bigtable这样的系统往往有复杂的子表分裂和合并操作。Bigtable采用两级的B+树结构组织，每个子表相当于B+树的一个叶子节点。数据结构如下：

1, 每个表按照主键(row key)组成一个B+树，主键是binary string；

2, 一个叶子节点包含表的一个前开后闭的主键范围(prev_end_key, end_key]；

3, 每个叶子节点内部按照更小的主键范围划分为多个块(block)并内建块索引(block index);

4, 每个块的大小通常在8KB~64KB之间并内建行索引；

5, 数据压缩以块为单位，压缩算法由用户指定；

6, 叶子节点可能合并或者分裂；

7, 叶子节点是负载均衡和任务调度的基本单元；

8, 叶子节点存放3个副本；

总之，大多数分布式存储系统要么实现一个分布式Hash表，要么实现分布式B+树，对应的存储引擎分别为前面博文中提到的随机读取存储引擎和Merge-dump存储引擎。分布式Hash存储系统由于只支持随机读取，一般用选择相对较好的磁盘，分布式B+树存储系统同时支持随机读取和顺序扫描，当用来支持使用模式主要为顺序扫描的应用时，可以选择相对较差的磁盘，比如SATA盘。

另外，我们都知道，关系型数据库系统的存储引擎基本都是一颗B树结构，然而在NOSQL系统中存储引擎可能是Log-Structured Hash Table或者Merge-dump存储引擎，很重要的一个原因是NOSQL系统的存储引擎只需要存储分布式Hash表的一个桶或者分布式B+树的一个叶子，而每个桶或者每个叶子服务的数据量往往也只有百MB级别。

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

红黑树并没有我们想象的那么难(上) （累计阅读 21,494）
为什么算法这么难？（累计阅读 12,397）
Twitter/微博客的学习摘要（累计阅读 12,258）
面试题 – 为什么我的朋友圈不见了？（累计阅读 11,951）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,902）
加州求职记（累计阅读 11,561）
海量数据面试题举例（累计阅读 11,114）
基于Redis构建系统的经验和教训（累计阅读 10,521）
谷歌(Google)2011年校园招聘笔试题（累计阅读 9,572）
Zookeeper研究和应用（累计阅读 9,481）