标签：data structure

共 9 篇相关文章

IT 累计浏览 2,249

跳跃表

这篇讲的是从Redis底层实现引出的跳跃表数据结构。作者从结构图入手，说明它本质是多层链表的组合，底层S0存储有序数据，上层作为索引加速查找。查找时从顶层向下逐层扫描，插入时则通过随机概率P决定新节点能“跳”到多高，从而在期望O(logn)时间内完成操作。文章展示了一组实验数据，对比了不同P值（如1/2、1/e）对平均操作时间、列高和跳跃次数的影响，直观体现了参数选择的权衡。最后，作者引用了Redis作者antirez的观点，点出跳跃表相比平衡树的核心优势：内存占用可控、对范围查询（ZRANGE）友好、实现与调试更简单。文末也补充说明，这种简单高效的特性使其同样适合算法竞赛场景。

IT 累计浏览 14,208

无锁消息队列

这篇讲的是如何在共享内存中设计高效的无锁消息队列。作者从实际项目需求出发——为了将耗时的数据落地任务从主逻辑进程中剥离，以提升整体处理能力——提出了用无锁队列替代频繁系统调用的方案。文章的核心是从简单到复杂，逐步推演无锁队列的设计。首先探讨了最基础的单生产者与单消费者场景，仅需维护 front 和 rear 指针，利用循环队列即可高效工作。接着，为解决多消费者并发出队的问题，引入了 CAS（Compare & Set）原子操作来安全地更新指针。最后，在多生产者多消费者的最复杂场景下，通过增加一个 write_index 变量，结合两次 CAS 操作来协调生产者之间的写入竞争，确保了数据一致性。文章结合具体图示和伪代码，清晰地阐述了不同并发模型下的实现关键与细微差别，例如利用 CAS 实现“乐观锁”，以及在生产者操作失败时通过 sched_yield() 让出 CPU 的优化技巧。作者在项目中实际应用了其中一种设计，最终观察到 CPU 使用率下降了约10%，验证了该方案的有效性。

IT 累计浏览 4,508

数据映射–平衡二叉有序树

这篇讲的是如何用平衡二叉排序树高效实现数据映射。作者从很多人觉得二叉树“有什么用”的困惑出发，指出其核心价值在于构建一种既能快速查询、又能灵活更新的映射结构。文章的核心在于阐释平衡二叉排序树如何“麻雀变凤凰”。它在普通二叉排序树的基础上增加了“平衡”条件（左右子树高度差不超过1），使其树高维持在O(log2N)。这直接对应了二分查找的时间复杂度——父节点恰好是左右子树的“中值”，使得查询可以快速排除一半数据。与上周讨论的有序数组相比，两者查询效率相当，但关键差异在于更新能力：数组不支持高效插入，而平衡树通过指针调整（如旋转）即可保持有序与平衡，更新代价同为O(log2N)，Java中的TreeMap就是基于此的红黑树实现。最后，作者从工程视角全面评估了这种结构：它支持范围查找（通过中序遍历）和自动扩展，内存占用通常优于自动扩容的数组。但也明确指出了短板：因指针跳跃特性，它不是面向磁盘的结构；且在调整结构时难以保证原子性，因此并行处理能力较弱。整篇文章通过清晰的对比和特性分析，将经典数据结构与实际应用紧密结合。

IT 累计浏览 2,544

跳跃表的实现和测试

这篇讲的是LevelDB核心数据结构跳跃表的C语言实现与测试。作者从跳跃表“理论效率非最优但胜在实现简单”这一实用价值出发，完整呈现了从结构定义、增删查改操作到性能测试的全过程。代码清晰地展示了跳跃表的多层指针设计，比如通过随机层数生成来模拟概率平衡，并通过一个简单的`rand_level`函数控制节点层级分布。文章特别点出了开发中发现的两个实际问题：一是随机层数生成可能超出预设的最大层数，二是在初始化头节点时容易因层数设置不当导致内存越界。作者对这两个问题都给出了具体的修复方案，例如调整循环条件和增加释放内存的`free_skip_list`函数，让整个实现更加健壮。测试部分不仅验证了插入、查找、删除等基本功能的正确性，还通过性能测试给出了直观数据：插入10万条数据耗时约数十毫秒，搜索10万次同样高效。这些结果印证了跳跃表作为高效查找结构的实用性。对于想理解跳表工作原理或需要借鉴其简洁实现的开发者来说，这篇从代码到测试的完整记录提供了直接参考。

IT 累计浏览 5,103

一些有意思的算法代码

这篇讲的是作者在解决最长连续范围问题时的一套精巧算法实现。问题本身并不复杂：给定一个未排序的整数数组，找出其中最长的、由连续整数构成的序列的长度。但文章的价值在于，它没有满足于常规的排序后遍历解法，而是深入探讨了如何利用哈希集合将时间复杂度优化到线性级别。作者的思路核心在于，将数组元素全部存入一个集合中。然后，遍历时只从序列的“起点”开始扩展——判断依据是集合中不存在当前数减一的那个值。一旦确认起点，便持续检查起点后续的连续整数是否都在集合内，从而高效计算出以此起点开始的序列长度。这个过程避免了重复计算，且每个元素最多被访问两次。巧妙之处体现在对“起点”定义的精准把握上，这彻底剔除了无效的内层循环。代码实现简洁，依赖哈希表的常数级查询特性，最终在时间和空间复杂度上取得了理想的平衡，是算法思维优化解题的典型案例。

IT 累计浏览 20,287

python编程细节──遍历dict的两种方法比较

这篇讲的是Python中遍历字典的两种常见方法，以及作者发现的一个容易被忽略的细节。大多数开发者习惯用`for key in dictobj`的方式，这确实简单直接。但作者通过一个具体例子指出，这种方法在特定情况下可能“不完全安全”，比如当字典结构在遍历过程中被修改时。文章接着对比了另一种更稳妥的方法：使用`.items()`同时获取键和值。关键差异在于，前者只遍历键，依赖于字典键视图的稳定性；而后者提供键值对，在处理需要同时访问值或进行复杂操作时更为可靠。作者通过对比揭示，选择哪种方法取决于具体场景——简单的键遍历用第一种足够高效，但涉及字典结构可能变化或需要操作值时，第二种方法则能避免潜在问题，是更健壮的选择。

IT 累计浏览 2,287

从数组里删除一个元素

这篇讲的是数组元素删除这个看似基础实则充满陷阱的操作。作者没有停留在某个特定语言的语法教学上，而是横向对比了 JavaScript 的 `splice`、Python 的列表推导式以及 Java 中 `ArrayList.remove()` 等多种主流方案。他详细拆解了每种方法背后的内存移动机制与性能开销，比如为什么基于索引的删除在连续内存的数组上效率更高，而链表结构的列表删除则更灵活。文章特别点出了初学者常忽略的细节：例如在循环中删除元素时容易引发的索引错位问题，以及某些语言中“删除”操作实际上只是标记为不可用、等待后续垃圾回收的特性。作者通过具体的代码片段和执行流程分析，让这些抽象概念变得清晰。对于需要频繁进行增删操作的数据结构选型，文章给出了明确建议：如果追求极致读取速度且删除不频繁，连续数组更优；若需动态增删，则应考虑链表或特定优化过的容器。整个对比基于实际的代码执行和性能考量，最终指向一个核心：理解底层机制，才能做出明智的技术选择。

IT 累计浏览 8,293

Key-Value小数据库tmdb发布：原理和实现

这篇梳理了Key-Value数据库的“前世今生”。从Unix早期的dbm说起，带读者回顾了gdbm、ndbm、sdbm、cdb等一脉相承的经典实现，也提及了功能强大的Berkeley DB与近年备受关注的qdbm。作者没有止步于罗列，而是指出了一个关键洞察：这类数据库本质上并非传统意义上的“数据库”，其核心价值在于提供一种极其简单、高效的数据存储与读取功能。这种对技术本质的界定，能帮助开发者在项目初期更清晰地判断技术选型的方向。文章虽短，但脉络清晰，点明了这类轻量级存储引擎的定位。

IT 累计浏览 2,747

PHP中的Hash算法

这篇讲的是PHP中核心数据结构Hash Table的底层实现。作者从“Hash Table是PHP的心脏”这一观点切入，深入剖析了PHP如何通过哈希算法管理数组、对象等数据，揭示了其高效运作背后的关键。文章详细拆解了PHP哈希表的实现机制，重点对比了PHP 5与PHP 7在哈希算法上的重大升级——从DJBX33A到SipHash-1-3的演变。作者不仅解释了SipHash算法在抵御哈希碰撞攻击方面的安全性优势，还结合源码，分析了PHP 7如何通过优化内存布局（如将哈希表拆分为arData和arHash两部分）和引入紧凑的存储结构，显著提升了查询效率与内存利用率。通过具体的源码片段和性能对比，文章清晰地展示了一次看似简单的数组访问（`$arr['key']`）在底层经历了哈希计算、冲突解决、值定位等一系列精妙操作。这种从原理到实现的贯通分析，有助于开发者理解PHP“快”与“安全”背后的工程抉择。