redis 数据结构综述

捣乱小子 2014-06-10 12:25:34 累计浏览 2,538 次

本机暂存

内容概览

这篇讲的是 Redis 存储键值对的核心底层数据结构，从源码层面剖析了其设计与巧妙的权衡。文章从全局视角出发，逐一介绍了 dict 哈希表、可变类型的 redisObject、高效插入删除的 zset（跳表+哈希表组合）、经典的 adlist 双链表，以及为优化 CPU 缓存和内存而生的压缩列表 ziplist 和整数集合 intset 等关键结构。

不止于理论，作者更将这些结构与具体的 Redis 命令联系起来，清晰地展现了不同场景下的选择逻辑。比如，SET 命令对应最简单的 sds 或数值类型；HSET 和 LPUSH 在特定条件下会使用紧凑的 ziplist 而非链表；SADD 会根据元素是否全为整数，在 intset 和 dict 之间动态切换；而 ZADD 有序集合则综合运用了 skiplist 和 dict，或采用 ziplist，具体取决于配置阈值。

这种从底层实现到命令行为的串联分析，揭示了 Redis 在性能与内存之间精妙平衡的设计哲学。作者提到这只是系列开篇，后续将逐一深挖每个结构，值得对 Redis 内部机制感兴趣的技术人持续关注。

这里所说的数据结构是针对 redis 内部存储 key-value 的，其他诸如 redis 配置相关的数据结构，不在此篇讨论范围。

一览 redis 数据结构

dict，哈希表，redis 所有的 key-value 都存储在里面。

// 哈希表(字典)数据结构，redis 的所有键值对都会存储在这里。其中包含两个哈希表。
typedef struct dict {
    // 哈希表的类型，包括哈希函数，比较函数，键值的内存释放函数
    dictType *type;
 
    // 存储一些额外的数据
    void *privdata;
 
    // 两个哈希表
    dictht ht[2];
 
    // 哈希表重置下标，指定的是哈希数组的数组下标
    int rehashidx; /* rehashing not in progress if rehashidx == -1 */
 
    // 绑定到哈希表的迭代器个数
    int iterators; /* number of iterators currently running */
} dict;

redisObject，任何 value 都会被包装成一个 redisObject，redisObject 能指定 value 的类型，编码方式等数据属性。

typedef struct redisObject {
    // 刚刚好 32 bits
 
    // 对象的类型，字符串/列表/集合/哈希表
    unsigned type:4;
 
    // 未使用的两个位
    unsigned notused:2;     /* Not used */
 
    // 编码的方式，redis 为了节省空间，提供多种方式来保存一个数据
    // 譬如：“123456789” 会被存储为整数 123456789
    unsigned encoding:4;
 
    // 当内存紧张，淘汰数据的时候用到
    unsigned lru:22;        /* lru time (relative to server.lruclock) */
 
    // 引用计数
    int refcount;
 
    // 数据指针
    void *ptr;
} robj;

zset，是一个跳表，插入删除速度非常快。

typedef struct zset {
    // 哈希表
    dict *dict;
 
    // 跳表
    zskiplist *zsl;
} zset;

adlist，普通的双链表。

typedef struct list {
    // 头指针
    listNode *head;
 
    // 尾指针
    listNode *tail;
 
    // 数据拷贝函数指针
    void *(*dup)(void *ptr);
 
    // 析构函数指针
    void (*free)(void *ptr);
 
    // 数据比较指针
    int (*match)(void *ptr, void *key);
 
    // 链表长度
    unsigned long len;
} list;

ziplist，是一个压缩的双链表，实现了针对 CPU cache 的优化。ziplist 实际上一个字符串，通过一系列的算法来实现压缩双链表。

intset，整数集合。

typedef struct intset {
    // 每个整数的类型
    uint32_t encoding;
 
    // intset 长度
    uint32_t length;
 
    // 整数数组
    int8_t contents[];
} intset;

sds，字符串数据结构，因为经常涉及字符串的操作，redis 做了特殊的实现，文档中将其称为 Hacking String.

typedef char *sds;

zipmap，已经被废弃，我不会讨论这个数据结构。

redis 命令和相关的数据结构

以添加数据的一类命令 SET,HSET,LPUSH,SADD,ZADD 为例，分别看看哪个命令底层用了哪些数据结构。

SET 命令底层所使用的即为 sds，或者整型数据类型 int,long long 等，或者浮点型 float，double。不同的情况所使用的数据类不同，SET 底层所使用的数据类型是最为简单的。

HSET 命令底层所使用的即为压缩双链表 ziplist，而非哈希表 dict。

LPUSH 命令底层所使用的即为压缩双链表 ziplist。

SADD 命令情况较为特殊，SADD 所面向的是一个集合(set)。如果往集合总添加的数据都是整数，会采用整数集合 intset；如果集合中的数据有一个不为整数，会采用哈希表 dict。因此，会一个特殊的情况，假使前 N个数据都为整数，第 N+1个数据为非整数，如字符串，那么数据结构会从 intset 转换为 dict。

ZADD 也较为特殊，SADD 所面向的是一个有序集合(sorted set)。ZADD 底层数据结构可以采用跳表 skiplist 和哈希表 dict 的结合；也可以采用 ziplist。具体选用哪种需要看 server.zset_max_ziplist_entries 和 server.zset_max_ziplist_value 两个配置变量的设置。前者掺合 dict 是为了能快速查找某个成员是否存在于跳表中。有序集一个较为普遍的应用是排行榜。

我将在接下来的系列文章中一一讲解每一个数据结构，以及选用相应数据结构的目的。

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

redis源代码分析 - persistence （累计阅读 32,226）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,162）
红黑树并没有我们想象的那么难(上) （累计阅读 21,493）
为什么算法这么难？（累计阅读 12,394）
Redis消息队列的若干实现方式（累计阅读 12,085）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,900）
加州求职记（累计阅读 11,560）
海量数据面试题举例（累计阅读 11,111）
基于Redis构建系统的经验和教训（累计阅读 10,519）
谷歌(Google)2011年校园招聘笔试题（累计阅读 9,571）