树与存储

淘宝网综合业务平台团队博客 2012-08-03 00:18:12 累计浏览 3,316 次

本机暂存

内容概览

这篇讲的是数据结构中最基础也最重要的“二叉树”概念。作者开篇就抓住了核心：二叉树的精髓在于“二分”，即每个节点最多拥有两个子节点的规则，由此衍生出满二叉树、完全二叉树等多种形态，是理解更复杂树结构的基础。

文章接着深入到计算机如何实际存储这棵树。关键对比在于两种经典方案：顺序存储和链式存储。顺序存储利用数组，逻辑上相邻的节点在物理内存中也连续，通过特定索引关系（如左孩子为2i+1，右孩子为2i+2）快速定位，适合完全二叉树这类结构紧凑的场景。而链式存储则更灵活，通过指针将分散在内存中的节点连接起来，能高效处理非完全二叉树或动态变化的树结构，是实际编程中最常用的方式。

这种存储方式的选择直接决定了后续遍历、查找等操作的效率和实现复杂度。文章通过对两种方式的剖析，清晰地揭示了抽象数据结构与具体计算机存储之间的映射关系，为读者后续学习二叉搜索树、堆等高级结构打下了扎实的基础。

二叉树：

一个根节点，每个节点下挂着最多2个子节点。、

概念：

度：结点的分支数，二叉树度为2。

深度：树的层次。

二叉排序树：

二叉树的基础上，每个节点上都有一个数字，节点上的数字都比右节点上的大。

应用场景：

基于内存的排序数据结构，写入时将数据写入到对应的位置。数据可能会出现倾斜，可以想到数字写入顺序如果不是50-20-60-18-55，而是18-20-50-55-60，那么二叉树就会退变为链表。

B-树：

B-树每个节点上包含着数据和指针，每个指针指向其一个子节点的位置，并且数据的个数为指针的2d-1个。这里的d是指针的个数，同时也是树的“度”。

B-树的查找需要一次对每个节点进行二分查找，直至找到或返回null。通常，可以引入布朗过滤器等方式加速查找。

B-树的写入、删除时要进行分裂、合并、转移等操作，越是非顺序的插入就越容易碰到这些高性能消耗的操作。

应用场景：

一般B-树常常作为磁盘的查找的数据结构使用。

一般磁盘为了减少寻道时间，往往会进行预读，一次读入1个或多个page的数据。我们只要将B-树的每个节点控制在一个page大小，就可以保证，磁盘一次的查找只需要一次IO。一个page大小一般在4k，可以存储不少的数据，假设一个节点存储数据量为100，深度为3的B-树，即可保存100w数据量(100*100*100)，而100的数据一般用不了4k的存储空间。

当然，这里节点中存储的东西主要包括data和指针，指针大小是固定的，而数据有大有小。只要控制好每个数据块的大小，就可以提高B-树的性能。

另外，一般情况下非叶子节点占用空间一般较小，上面的例子中，非叶子节点数据量只有1w，完全可以缓存至内存中，这点也是在实际数据库实现中常常使用到的优化。

B+树：

B+树完全是对B-树的工程级优化，非叶子节点不在存储data，只有根节点才存储数据。最大程度的加大了单个page中指针的个数，增加数的度。减少了树的层次。

另外相比较于B-树，其key的个数变为指针个数的2d个。

应用场景：

实际在数据库系统中使用时，往往每个叶子节点都会存储一个其相邻节点的一个指针，用来在范围查找时有更好的性能。

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

红黑树并没有我们想象的那么难(上) （累计阅读 21,494）
为什么算法这么难？（累计阅读 12,397）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,902）
加州求职记（累计阅读 11,561）
海量数据面试题举例（累计阅读 11,114）
基于Redis构建系统的经验和教训（累计阅读 10,521）
谷歌(Google)2011年校园招聘笔试题（累计阅读 9,572）
浅谈redis数据库的键值设计（累计阅读 9,353）
关于使用STL的红黑树map还是hashmap的问题（累计阅读 8,873）
再谈“我是怎么招聘程序员的” （累计阅读 8,790）