IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:data structure

共 9 篇相关文章

IT 累计浏览 2,249

跳跃表

这篇讲的是从Redis底层实现引出的跳跃表数据结构。作者从结构图入手,说明它本质是多层链表的组合,底层S0存储有序数据,上层作为索引加速查找。查找时从顶层向下逐层扫描,插入时则通过随机概率P决定新节点能“跳”到多高,从而在期望O(logn)时间内完成操作。 文章展示了一组实验数据,对比了不同P值(如1/2、1/e)对平均操作时间、列高和跳跃次数的影响,直观体现了参数选择的权衡。最后,作者引用了Redis作者antirez的观点,点出跳跃表相比平衡树的核心优势:内存占用可控、对范围查询(ZRANGE)友好、实现与调试更简单。文末也补充说明,这种简单高效的特性使其同样适合算法竞赛场景。

IT 累计浏览 14,208

无锁消息队列

这篇讲的是如何在共享内存中设计高效的无锁消息队列。作者从实际项目需求出发——为了将耗时的数据落地任务从主逻辑进程中剥离,以提升整体处理能力——提出了用无锁队列替代频繁系统调用的方案。 文章的核心是从简单到复杂,逐步推演无锁队列的设计。首先探讨了最基础的单生产者与单消费者场景,仅需维护 front 和 rear 指针,利用循环队列即可高效工作。接着,为解决多消费者并发出队的问题,引入了 CAS(Compare & Set)原子操作来安全地更新指针。最后,在多生产者多消费者的最复杂场景下,通过增加一个 write_index 变量,结合两次 CAS 操作来协调生产者之间的写入竞争,确保了数据一致性。 文章结合具体图示和伪代码,清晰地阐述了不同并发模型下的实现关键与细微差别,例如利用 CAS 实现“乐观锁”,以及在生产者操作失败时通过 sched_yield() 让出 CPU 的优化技巧。作者在项目中实际应用了其中一种设计,最终观察到 CPU 使用率下降了约10%,验证了该方案的有效性。

IT 累计浏览 4,508

数据映射–平衡二叉有序树

这篇讲的是如何用平衡二叉排序树高效实现数据映射。作者从很多人觉得二叉树“有什么用”的困惑出发,指出其核心价值在于构建一种既能快速查询、又能灵活更新的映射结构。 文章的核心在于阐释平衡二叉排序树如何“麻雀变凤凰”。它在普通二叉排序树的基础上增加了“平衡”条件(左右子树高度差不超过1),使其树高维持在O(log2N)。这直接对应了二分查找的时间复杂度——父节点恰好是左右子树的“中值”,使得查询可以快速排除一半数据。与上周讨论的有序数组相比,两者查询效率相当,但关键差异在于更新能力:数组不支持高效插入,而平衡树通过指针调整(如旋转)即可保持有序与平衡,更新代价同为O(log2N),Java中的TreeMap就是基于此的红黑树实现。 最后,作者从工程视角全面评估了这种结构:它支持范围查找(通过中序遍历)和自动扩展,内存占用通常优于自动扩容的数组。但也明确指出了短板:因指针跳跃特性,它不是面向磁盘的结构;且在调整结构时难以保证原子性,因此并行处理能力较弱。整篇文章通过清晰的对比和特性分析,将经典数据结构与实际应用紧密结合。

IT 累计浏览 2,544

跳跃表的实现和测试

这篇讲的是LevelDB核心数据结构跳跃表的C语言实现与测试。作者从跳跃表“理论效率非最优但胜在实现简单”这一实用价值出发,完整呈现了从结构定义、增删查改操作到性能测试的全过程。 代码清晰地展示了跳跃表的多层指针设计,比如通过随机层数生成来模拟概率平衡,并通过一个简单的`rand_level`函数控制节点层级分布。文章特别点出了开发中发现的两个实际问题:一是随机层数生成可能超出预设的最大层数,二是在初始化头节点时容易因层数设置不当导致内存越界。作者对这两个问题都给出了具体的修复方案,例如调整循环条件和增加释放内存的`free_skip_list`函数,让整个实现更加健壮。 测试部分不仅验证了插入、查找、删除等基本功能的正确性,还通过性能测试给出了直观数据:插入10万条数据耗时约数十毫秒,搜索10万次同样高效。这些结果印证了跳跃表作为高效查找结构的实用性。对于想理解跳表工作原理或需要借鉴其简洁实现的开发者来说,这篇从代码到测试的完整记录提供了直接参考。

IT 累计浏览 5,103

一些有意思的算法代码

这篇讲的是作者在解决最长连续范围问题时的一套精巧算法实现。问题本身并不复杂:给定一个未排序的整数数组,找出其中最长的、由连续整数构成的序列的长度。但文章的价值在于,它没有满足于常规的排序后遍历解法,而是深入探讨了如何利用哈希集合将时间复杂度优化到线性级别。 作者的思路核心在于,将数组元素全部存入一个集合中。然后,遍历时只从序列的“起点”开始扩展——判断依据是集合中不存在当前数减一的那个值。一旦确认起点,便持续检查起点后续的连续整数是否都在集合内,从而高效计算出以此起点开始的序列长度。这个过程避免了重复计算,且每个元素最多被访问两次。 巧妙之处体现在对“起点”定义的精准把握上,这彻底剔除了无效的内层循环。代码实现简洁,依赖哈希表的常数级查询特性,最终在时间和空间复杂度上取得了理想的平衡,是算法思维优化解题的典型案例。

IT 累计浏览 20,287

python编程细节──遍历dict的两种方法比较

这篇讲的是Python中遍历字典的两种常见方法,以及作者发现的一个容易被忽略的细节。大多数开发者习惯用`for key in dictobj`的方式,这确实简单直接。但作者通过一个具体例子指出,这种方法在特定情况下可能“不完全安全”,比如当字典结构在遍历过程中被修改时。 文章接着对比了另一种更稳妥的方法:使用`.items()`同时获取键和值。关键差异在于,前者只遍历键,依赖于字典键视图的稳定性;而后者提供键值对,在处理需要同时访问值或进行复杂操作时更为可靠。作者通过对比揭示,选择哪种方法取决于具体场景——简单的键遍历用第一种足够高效,但涉及字典结构可能变化或需要操作值时,第二种方法则能避免潜在问题,是更健壮的选择。

IT 累计浏览 2,287

从数组里删除一个元素

这篇讲的是数组元素删除这个看似基础实则充满陷阱的操作。作者没有停留在某个特定语言的语法教学上,而是横向对比了 JavaScript 的 `splice`、Python 的列表推导式以及 Java 中 `ArrayList.remove()` 等多种主流方案。他详细拆解了每种方法背后的内存移动机制与性能开销,比如为什么基于索引的删除在连续内存的数组上效率更高,而链表结构的列表删除则更灵活。 文章特别点出了初学者常忽略的细节:例如在循环中删除元素时容易引发的索引错位问题,以及某些语言中“删除”操作实际上只是标记为不可用、等待后续垃圾回收的特性。作者通过具体的代码片段和执行流程分析,让这些抽象概念变得清晰。 对于需要频繁进行增删操作的数据结构选型,文章给出了明确建议:如果追求极致读取速度且删除不频繁,连续数组更优;若需动态增删,则应考虑链表或特定优化过的容器。整个对比基于实际的代码执行和性能考量,最终指向一个核心:理解底层机制,才能做出明智的技术选择。

IT 累计浏览 8,293

Key-Value小数据库tmdb发布:原理和实现

这篇梳理了Key-Value数据库的“前世今生”。从Unix早期的dbm说起,带读者回顾了gdbm、ndbm、sdbm、cdb等一脉相承的经典实现,也提及了功能强大的Berkeley DB与近年备受关注的qdbm。 作者没有止步于罗列,而是指出了一个关键洞察:这类数据库本质上并非传统意义上的“数据库”,其核心价值在于提供一种极其简单、高效的数据存储与读取功能。这种对技术本质的界定,能帮助开发者在项目初期更清晰地判断技术选型的方向。文章虽短,但脉络清晰,点明了这类轻量级存储引擎的定位。

IT 累计浏览 2,747

PHP中的Hash算法

这篇讲的是PHP中核心数据结构Hash Table的底层实现。作者从“Hash Table是PHP的心脏”这一观点切入,深入剖析了PHP如何通过哈希算法管理数组、对象等数据,揭示了其高效运作背后的关键。 文章详细拆解了PHP哈希表的实现机制,重点对比了PHP 5与PHP 7在哈希算法上的重大升级——从DJBX33A到SipHash-1-3的演变。作者不仅解释了SipHash算法在抵御哈希碰撞攻击方面的安全性优势,还结合源码,分析了PHP 7如何通过优化内存布局(如将哈希表拆分为arData和arHash两部分)和引入紧凑的存储结构,显著提升了查询效率与内存利用率。 通过具体的源码片段和性能对比,文章清晰地展示了一次看似简单的数组访问(`$arr['key']`)在底层经历了哈希计算、冲突解决、值定位等一系列精妙操作。这种从原理到实现的贯通分析,有助于开发者理解PHP“快”与“安全”背后的工程抉择。