捣乱小子 -- IT技术博客大学习 -- 共学习共进步！

首页 / 捣乱小子

IT 2015-01-20 23:19:00 / 累计浏览 15,980

红黑树并没有我们想象的那么难(下)

这篇讲的是红黑树如何“落地”到我们常用的STL map中。作者从SGI STL源码出发，直接剖析红黑树底层类`_Rb_tree`的实现细节。文章亮点在于对核心机制的拆解。首先解释了`_M_header`这个辅助头节点的巧妙设计，它同时维护根节点、最小与最大节点，让管理变得规整。重点展开的是两种插入策略：`insert_equal()`允许重复值，逻辑直白；而`insert_unique()`的去重判断则颇为精巧，它利用二叉搜索树性质，在寻找插入位置时通过一次向右再持续向左的走位，结合对前驱节点的比较，就能“hack”地判断出键值是否已存在。最后，文章也回应了“为何用红黑树而非AVL树”这个经典问题，点明红黑树在搜索效率与修改开销（插入至多两次旋转）之间取得了更好的平衡，是一种实用主义的折中方案。作者通过源码把红黑树从理论概念带到了具体的工业级实现，让那些“旋转”、“着色”的抽象描述变得清晰可触。

IT 2015-01-20 23:17:35 / 累计浏览 21,380

红黑树并没有我们想象的那么难(上)

这篇讲的是红黑树，作者从一个初学者的常见困惑出发：红黑树情况太多，似乎很难。文章给出的核心解法是“合并”——通过归结和简化情况来降低理解门槛。作者首先回顾了红黑树必须满足的五个性质，然后直接切入数据结构定义和基础的二叉搜索树操作。全文的重点放在对插入与删除算法的拆解上。对于插入，文章将其归结为三种核心情况，通过逐步调整颜色和旋转来维持性质。对于删除，分析则更为细致，分多种情况（例如“兄弟节点颜色”或“侄节点颜色”不同）讨论了重新着色和旋转的策略，并配以直观的印象图和伪代码。整篇文章像一份详尽的算法推演笔记，通过枚举具体场景并展示调整步骤，试图将复杂的平衡操作变得有迹可循。对于想从原理层面弄懂红黑树实现细节的读者，这种直面各种案例的讲解方式可能比单纯记忆规则更有帮助。

IT 2014-12-30 12:22:52 / 累计浏览 14,180

无锁消息队列

这篇讲的是如何在共享内存中设计高效的无锁消息队列。作者从实际项目需求出发——为了将耗时的数据落地任务从主逻辑进程中剥离，以提升整体处理能力——提出了用无锁队列替代频繁系统调用的方案。文章的核心是从简单到复杂，逐步推演无锁队列的设计。首先探讨了最基础的单生产者与单消费者场景，仅需维护 front 和 rear 指针，利用循环队列即可高效工作。接着，为解决多消费者并发出队的问题，引入了 CAS（Compare & Set）原子操作来安全地更新指针。最后，在多生产者多消费者的最复杂场景下，通过增加一个 write_index 变量，结合两次 CAS 操作来协调生产者之间的写入竞争，确保了数据一致性。文章结合具体图示和伪代码，清晰地阐述了不同并发模型下的实现关键与细微差别，例如利用 CAS 实现“乐观锁”，以及在生产者操作失败时通过 sched_yield() 让出 CPU 的优化技巧。作者在项目中实际应用了其中一种设计，最终观察到 CPU 使用率下降了约10%，验证了该方案的有效性。

IT 2014-11-30 23:48:52 / 累计浏览 2,060

深入剖析 redis 数据结构 redisObject

这篇讲的是Redis核心数据结构redisObject的设计。它只有32位，却极其高效地管理了所有类型的数据对象。作者从结构体定义出发，揭示了它的精巧布局：type字段明确是字符串、列表还是哈希等类型；encoding字段则决定了底层是用普通字符串、压缩列表还是跳表来存储——同一个类型的数据可以有多种编码，Redis会根据数据规模自动选择最省内存的方案。比如一个小的集合可能用整数集合，变大了就切换为哈希表。文章还详解了lru字段如何用于内存淘汰，以及refcount引用计数如何管理对象生命周期。最后那个void *ptr指针，才是真正指向数据的地方。作者特别指出，得益于Redis单线程模型，引用计数的操作无需考虑线程安全，这是与Memcached等多线程系统的重要区别。整个设计将数据与元数据分离，各个字段职责清晰，正是Redis高效与灵活的重要基石。

IT 2014-11-30 23:48:02 / 累计浏览 4,260

深入剖析 redis replication 主从连接

这篇讲的是Redis主从复制机制的底层实现，特别是积压空间（repl_backlog）的设计与作用。文章从主从架构的概述切入，指出其支持灵活的DAG拓扑以实现数据弱一致性。核心剖析聚焦于“积压空间”这一关键数据结构：它本质上是一个环形缓冲区，用于暂存数据变更记录。作者通过源码追踪，清晰展示了变更记录的写入路径：当命令执行修改了数据后，会经由 `call() -> propagate() -> replicationFeedSlaves()` 链路，最终被同时写入积压空间并分发给所有在线从机。文章巧妙地解释了这种“双重写入”的设计意图：积压空间是为那些因故障断开连接的从机准备的。这些从机重连后，可以优先从这个环形缓冲区中获取断开期间错过的数据变更，进行高效的增量同步（部分同步），而非每次都进行全量同步。只有当断开时间过长，缓冲区无法覆盖时，才会退化为全同步。通过对核心数据结构（如 `repl_backlog_size`, `repl_backlog_idx` 等）和关键函数的源码解读，文章深入浅出地揭示了Redis如何在保证实时同步的同时，优雅地处理节点故障恢复的场景，展现了其在工程实现上的细腻考量。

IT 2014-11-30 23:39:36 / 累计浏览 3,780

深入剖析 redis RDB 持久化策略

这篇讲的是 Redis RDB 持久化的底层实现。作者从 RDB 与 AOF 的基本概念切入，随后迅速深入核心，剖析了负责持久化 IO 操作的关键数据结构 `struct rio`。文章的亮点在于对 `rio` 结构的拆解。它巧妙地通过函数指针（如 `read`、`write`）抽象了读写行为，并用一个 `union` 联合体统一了对内存缓冲区和文件的处理，使得一套代码能同时服务于内存缓存和磁盘文件两种场景，设计上颇具巧思。接着，作者以 `rdbSave()` 函数为主线，通过代码注释的方式，清晰地勾勒出整个 RDB 写文件的流程：从创建临时文件、初始化 `rio` 结构，到遍历每个数据库、写入操作码和数据项。这个过程不仅解释了数据是如何被序列化到磁盘的，也揭示了 BGSAVE 等后台操作的基础——主进程 `fork` 出子进程来执行这个主逻辑，从而避免阻塞服务。对于想了解 Redis 如何将内存数据“快照”到硬盘的开发者而言，这篇文章提供了一个从数据结构到执行流程的清晰视角。

IT 2014-11-30 23:36:04 / 累计浏览 3,040

Django 源码小剖: Django ORM 查询管理器

这篇讲的是 Django ORM 中 `Book.objects` 这类查询入口背后的精巧设计。我们平时写 `Book.objects.filter()` 只图方便，但作者从源码出发，揭示了这行简单代码背后隐藏的机制。文章首先点明，`objects` 并非 Model 类自带的属性，而是在 Django 启动时，通过 `ensure_default_manager` 函数动态“挂”上去的。真正的查询逻辑由 `Manager` 类承担。但更巧妙的是 Django 的“保护技法”：`objects` 属性实际上是一个 `ManagerDescriptor` 描述符的实例。它利用 Python 的描述符协议，在 `__get__` 方法中判断访问者是类还是类实例。如果误在对象实例上调用 `book_obj.objects`，会直接抛出 `AttributeError`，确保了语义正确——查询只能从“类”这个集合概念发起，而非从单个数据实例。作者通过剖析这一层包装，清晰地展现了 Django 如何在工程细节上贯彻设计原则，让 ORM 接口既简洁又严谨。他在 GitHub 上维护的 Django 源码注释项目，也为想深入探索的开发者提供了很好的路径。

IT 2014-11-30 23:34:30 / 累计浏览 5,320

memcached 源码阅读笔记

这篇讲的是作者深入阅读 memcached 源码后梳理出的核心流程。作者从程序的入口函数 `main()` 出发，剖析了 memcached 如何基于 libevent 构建起高效的事件驱动模型。初始化过程涉及事件中心、内部数据结构、空闲连接池以及工作线程的创建与配置。文章重点分析了 memcached 两种可配置的服务模式：UNIX 域套接字与 TCP/UDP。前者在本地通信中性能更优，后者则提供了更通用的网络接入能力。两者通过注册 `event_handler()` 回调来处理客户端连接。在多线程协作方面，文章揭示了一个巧妙的设计：每个工作线程拥有独立的连接队列（CQ）和 libevent 事件中心，并通过创建读写管道进行线程唤醒。主线程通过 `dispatch_conn_new()` 将新连接分发到指定线程的队列，工作线程则监听管道事件，按需取出并执行任务。这种基于事件驱动和管道通信的线程调度机制，保证了高并发下的处理效率。作者从全局到细节，清晰展现了 memcached 如何用简洁的 C 代码，借助 libevent 实现了一个高性能、多线程的网络服务框架。

IT 2014-11-30 23:33:23 / 累计浏览 10,540

初探单点登录 SSO

这篇讲的是单点登录（SSO）的基本原理，并通过淘宝与京东的实例，对比了两种主流实现策略的差异。文章先阐释了SSO如何解决多产品线下的用户体验问题，即“一次登录，处处通行”。其核心在于认证系统为每个应用颁发“钥匙”（存于Cookie）。关键差异在于应用间如何获取这把钥匙。作者通过抓包分析揭示了两种路径：淘宝的策略更偏向“后置式”，用户访问聚划算等未登录站点时，通过一系列跳转，由主站（taobao.com）的凭证去认证中心为当前站点领取新凭证。而京东的策略则是“前置式”，用户登录主站（jd.com）后，页面中的JS代码会立即通过JSONP跨域请求，主动为旗下所有子应用预置好登录凭证，实现更无缝的体验。这种基于实际网络请求的剖析，清晰展示了SSO在“便利性”与“安全流程”之间的权衡，对于理解企业级统一认证架构的设计思路很有启发。

IT 2014-11-26 22:51:51 / 累计浏览 2,660

深入剖析 redis 数据结构 ziplist

这篇讲的是 Redis 中为了极致节省内存而设计的压缩链表 ziplist 的实现细节。作者从 Redis 的 list 结构有两种底层实现（普通双链表和 ziplist）切入，重点剖析了后者。 ziplist 的核心巧妙之处在于，它用一段连续的内存空间模拟了双向链表的功能，从而省去了每个节点额外的前驱和后驱指针开销（每个指针8字节）。文章详细拆解了 ziplist 的整体格式以及每个 entry 的 TLV（类型-长度-值）结构，特别是通过 `prelen` 字段记录前一项的长度来实现反向遍历，通过精心设计的 `encoding` 字段对不同长度的字符串和整数进行紧凑编码。通过分析 `ziplistFind()` 函数的源码，文章展示了 ziplist 如何进行数据查找与比较。最后，文章点明了 ziplist 在 Redis 中的实际应用场景（如 Hash 结构在数据量小时的底层存储），并解释了它的性能优势：紧凑的线性内存布局不仅节省空间，还可能更好地利用 CPU 缓存，使得在数据量较小时，其查找性能甚至可以媲美哈希表。

IT 2014-11-22 23:10:09 / 累计浏览 1,880

深入剖析 redis 数据结构 dict

这篇深度技术文章从源码层面拆解了 Redis 的核心数据结构——字典（dict）。作者首先指明，Redis 的每个数据库（db）本质上由两个哈希表（dictht）构成，真正存储键值对的是这两个表。文章重点剖析了 Redis 哈希表设计最精妙的部分：为何需要两个哈希表，以及如何利用它们实现 **渐进式 rehash（重哈希）**，从而在服务不中断的前提下完成表的扩容。具体实现上，当触发扩展时，Redis 会为第二个哈希表分配新空间，并在后续的每次增删改查操作中，分批次地将数据从旧表迁移至新表。文章结合源码（`dictRehash` 函数）展示了这一“逐步搬家”的过程，并点明了其背后的设计考量：在服务器空闲时，定时任务会推进 rehash；在高负载时，操作本身的开销也会承担部分 rehash 工作，以此平衡性能。此外，文章还分析了这种设计带来的“副作用”：由于查找操作需同时兼顾两个表，加上写操作本身包含多次查找，导致 Redis 在执行 SET 等写命令时效率并不高，这也从底层解释了其“重读轻写”的特性。最后，文章简要介绍了在涉及持久化（如 RDB/AOF）遍历哈希表时，也需要正确处理这两个表的过渡状态。全文逻辑清晰，从结构定义到核心算法，再到其对上层行为的影响，层层递进，非常适合想深入理解 Redis 高性能背后实现细节的开发者。

IT 2014-11-21 23:22:05 / 累计浏览 3,420

深入剖析 redis 数据结构 skiplist

这篇讲的是Redis有序集合ZSet背后的灵魂——跳表（skiplist）。作者从Redis源码出发，一层层拆解了这个经典数据结构。文章首先点明跳表的核心价值：它用空间换时间，通过预先在有序链表上建立多级“索引”，实现了类似二分查找的高效查询。Redis正是利用它来支撑ZSet的排序和范围查询操作。更精彩的部分在于对Redis具体实现的剖析。文章不仅给出了核心结构体`zskiplistNode`和`zskiplist`的定义，还深入到了插入和删除操作的算法细节。比如，插入时如何随机生成新节点的层数，以及如何通过`update`数组和`rank`数组来精确地调整每一层的前驱指针和`span`值。`span`这个设计很巧妙，它记录了两个节点之间跳过了多少元素，是实现按排名查询的关键。作者没有停留在理论，而是结合代码注释，把查找、插入、删除的完整流程都梳理了一遍。从概念到实现，从宏观到微观，清晰地展现了Redis是如何用这套机制来保障其高性能的。对于想理解Redis内部原理的开发者来说，这篇源码分析对数据结构的剖析很到位。

IT 2014-11-21 00:04:47 / 累计浏览 2,540

深入剖析 redis 事务机制

这篇讲的是 Redis 事务的内部运作原理。作者从 MULTI、EXEC、DISCARD、WATCH 四个基础命令入手，但不止步于表面用法，而是深入到服务端源码，揭秘了事务背后的命令队列机制。核心在于理解 Redis 的单线程模型。当客户端发送 MULTI 后，后续命令并不会立即执行，而是被服务端通过一个 `multiState` 结构体缓存在命令队列中。文章详细展示了 `multiCmd` 和 `multiState` 的结构，并结合 `processCommand` 函数的代码，清晰说明了命令是如何在“入队”和“执行”两个状态间切换的。另一个巧妙之处是 WATCH 命令如何实现类 CAS（检查并设置）功能。文章通过对比有无 CAS 特性的表格例子，生动解释了并发修改的冲突场景。随后剖析了 `watchForKey` 等函数，展示了 Redis 如何通过监视键值对，在事务执行前检测到数据变化，从而自动取消事务，保证了操作的原子性。整体来看，文章将事务机制拆解为命令缓存和乐观锁两个核心，并提供了关键的数据结构和源码片段，让读者能从实现层面真正理解 Redis 事务“一次性、顺序执行”的特性是如何保障的。

IT 2014-11-20 23:53:27 / 累计浏览 1,580

深入剖析 redis 数据结构 intset

这篇讲的是 Redis 中整数集合 intset 的底层实现细节。当 set 中所有元素都是整数时，Redis 会优先使用 intset 这种紧凑的数据结构，只有遇到非整数时才升级为更通用的 dict。作者深入源码，拆解了 intset 如何做到高效存储与操作。 intset 本质是一个有序、不重复的整型数组。它的精巧之处在于通过 `encoding` 字段动态记录当前数组中整数的位宽（16、32或64位），从而在保证功能的前提下极致节省内存。查找操作直接利用数组的有序特性，采用经典的二分查找算法，效率很高。文章的重点和亮点在于对插入过程的剖析。当插入的新整数超出了当前编码范围（例如向一个全是 16 位整数的集合插入一个 32 位整数），intset 不会简单拒绝，而是会触发一次“编码升级”（`intsetUpgradeAndAdd`）。升级过程非常巧妙：它会重新分配内存，将现有所有元素转换为新编码，并逆序移动元素以避免数据覆盖。由于新整数必然是最大或最小值，最终将其放置在数组头部或尾部即可。这种按需升级的设计，平衡了内存效率与灵活性。整体来看，intset 是一个为特定场景高度优化的微型数据结构。它通过有序数组+二分查找+动态编码升级，为 Redis 提供了一个内存极其友好且高效的整数集合实现，是理解 Redis 空间优化哲学的一个绝佳范例。

IT 2014-06-10 12:25:34 / 累计浏览 2,500

redis 数据结构综述

这篇讲的是 Redis 存储键值对的核心底层数据结构，从源码层面剖析了其设计与巧妙的权衡。文章从全局视角出发，逐一介绍了 dict 哈希表、可变类型的 redisObject、高效插入删除的 zset（跳表+哈希表组合）、经典的 adlist 双链表，以及为优化 CPU 缓存和内存而生的压缩列表 ziplist 和整数集合 intset 等关键结构。不止于理论，作者更将这些结构与具体的 Redis 命令联系起来，清晰地展现了不同场景下的选择逻辑。比如，SET 命令对应最简单的 sds 或数值类型；HSET 和 LPUSH 在特定条件下会使用紧凑的 ziplist 而非链表；SADD 会根据元素是否全为整数，在 intset 和 dict 之间动态切换；而 ZADD 有序集合则综合运用了 skiplist 和 dict，或采用 ziplist，具体取决于配置阈值。这种从底层实现到命令行为的串联分析，揭示了 Redis 在性能与内存之间精妙平衡的设计哲学。作者提到这只是系列开篇，后续将逐一深挖每个结构，值得对 Redis 内部机制感兴趣的技术人持续关注。

IT 2014-05-27 22:47:54 / 累计浏览 2,640

深入剖析 redis 数据淘汰策略

这篇讲的是 Redis 在内存紧张时如何选择“淘汰谁”的策略。当数据集大小超过 maxmemory 限制时，Redis 会启动数据淘汰机制，而策略的选择直接关系到服务的稳定性和数据的访问模式。文章梳理了 Redis 提供的六种策略。核心思路分为三类：针对设置了过期时间的键（volatile）进行 LRU（最近最少使用）、TTL（最快过期）或随机淘汰；针对所有键（allkeys）进行 LRU 或随机淘汰；以及完全禁止驱逐。作者重点剖析了 LRU 和 TTL 两种机制的实现细节。有趣的是，Redis 的 LRU 并非一个严格的全局算法。它维护了一个每分钟更新的服务器级 lruclock，在每次淘汰时，会从数据集中随机抽取一批键（由 maxmemory_samples 控制），然后只在这批“样本”中找出 LRU 值最大的那个进行淘汰。TTL 策略的实现方式也类似，是随机采样后淘汰剩余存活时间最长的键。这是一种在性能与效果之间做出权衡的巧妙设计，牺牲了绝对的精确性，换来了极低的计算开销。文章通过源码揭示了 freeMemoryIfNeeded() 这个核心函数的工作流程：每次执行命令后检查内存，若超标则根据配置的策略，遍历数据库，通过采样找出要驱逐的键值对并删除，同时将此操作同步到 AOF 和从库。理解这些机制，能帮助我们更好地配置 Redis，在缓存命中率、内存使用和性能之间找到最佳平衡点。