redis源代码分析 - hash table

运维和开发 2011-07-16 20:44:48 累计浏览 4,569 次

本机暂存

内容概览

这篇深入剖析了Redis核心数据结构之一——哈希表（dict）的实现。作者从`dict.c`源码出发，揭示了Redis如何用一个结构同时管理两张哈希表（`ht[0]`和`ht[1]`），并在`rehash`过程中巧妙地通过“渐进式迁移”来避免阻塞。

文章的关键在于讲清楚了“渐进式rehash”的运作机制：当需要扩容或收缩时，Redis并不会一次性完成迁移，而是将rehash过程分散到后续的每一次增删改查操作中，每次只迁移一小部分。同时，它详细说明了触发rehash的负载因子阈值，以及在rehash期间如何通过一个标志位确保操作的正确性。

这种设计使得即使在处理百万级键值的大型哈希表时，Redis也能保持极低的延迟。文章将这个精巧的工程实现拆解得清晰易懂，展现了Redis为追求高性能而做出的底层权衡与智慧。

hashtable的实现有很多，redis的dict.c 是其中之一。

dict 包含了2个dictht hashtable ht[0], ht[1]。

client版本的dict是没有dictht的概念。加入dictht的概念存在2个ht的目的是为了在rehash的时候可以平滑的迁移bucket里的数据，而不像client的dict要把老的hash table里的一次性的全部数据迁移到新的hash table，这在造成一个密集型的操作，在业务高峰期不可取。

ht是hashtable的简称，实际上是一个指针数组，数组的个数由dictht->size决定，是DICT_HT_INITIAL_SIZE的整数倍。每个元素(bucket)指向一个dictEntry的单链表来解决hash的conflict。查询某个key，需要先hash，定位到bucket,再通过链表遍历。

key经过hash函数后，与dictht->sizemask求与均分到ht的每个bucket上。dictht->used表示这个ht里包含的key的个数，也就是dictEntry的个数，每次dictAdd成功+1。链表的加入为头指针的方法加入，这样dictAdd更加的方便。

随着key不断的添加，bucket下的单链表越来越长，查找、删除效率越来越低，需要对ht进行expand，增加bucket个数，让链表的长度减少。bucket数量的增多，原有bucket的key需要迁移到新的bucket上，于是有了rehash的这个过程。

ht[1]就是为了rehash而产生，新的ht size是ht[0]的两倍2，随着dictAdd，dictFind函数的调用，ht[0]的每个bucket会rehash加入到ht[1]里。dict->rehashidx 是ht[0] 需要rehash就是迁移到ht[1]的bucket的索引，从0开始直到ht->used==0。

rehash除了每次伴随dictAdd，dcitFind而迁移一个bucket的所有dictEntry，还有一种一次hash100个bucket，直到消耗了某个时间点为止的做法。

rehash的步骤：

拿到一个bucket，遍历这个链表的每个kv，对key进行hash然后于sizemask求与，定位ht[1]的新bucket位置，

加入到链表，迁移后ht[0].used-，ht[1].used++。

直到ht[0].used=0，释放ht[0]的table，再赋值ht[0]= ht[1]，再把则ht[1]reset。

rehash的期间：

由于ht[1]是ht[0]size的2倍，每次dictAdd的时候都会rehash一次，不会出现后ht[1] 满了，而ht[0]还有数据的事情。

查询会先查ht[0]再查询ht[1]，在rehash的过程中，不会出现再次expand。

新的key加到ht[1]。

expand的条件：

table的位置已经满了，糟糕的hash函数造成的skrew导致永远不会expand。

key的个数除以table的大小，超过了dict_force_resize_ratio。

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

redis源代码分析 - persistence （累计阅读 32,227）
Redis消息队列的若干实现方式（累计阅读 12,085）
基于Redis构建系统的经验和教训（累计阅读 10,519）
浅谈redis数据库的键值设计（累计阅读 9,352）
【2014年版】异地购房提取北京公积金（累计阅读 9,145）
redis运维的一些知识点（累计阅读 8,680）
redis在大数据量下的压测表现（累计阅读 8,292）
Redis和Memcached的区别（累计阅读 8,067）
redis 运维实际经验纪录之一（累计阅读 7,711）
Redis作者谈Redis应用场景（累计阅读 7,667）