NOSQL Notes -- IT技术博客大学习 -- 共学习共进步！

首页 / NOSQL Notes

IT 2015-04-26 21:52:59 / 累计浏览 3,160

持续可用与CAP理论 – 一个系统开发者的观点

这篇从金融数据库的视角出发，探讨了如何在实际工程中打破CAP理论的悲观论断，实现“持续可用”。作者首先明确了金融级数据库的两大支柱：强一致性（保证ACID）和高可用性（秒级故障恢复）。针对CAP理论中一致性与可用性的矛盾，文章指出CAP中的A（任何节点都须响应）与工程实践中的高可用（HA）存在差异——通过快速剔除故障节点、依赖多数派存活继续服务，系统仍能满足业务需求。文章对比了两种实现路径：传统的共享存储方案虽成熟但成本高且无法跨机房；而基于Paxos的分布式方案则通过强同步与多数派选举，能在容忍单IDC故障的同时保持强一致与高性能。作者结合实践经验指出，若架构设计得当（如OceanBase的实现），强同步带来的额外延时可控制在同城0.5ms左右，吞吐量影响低于10%。文章最终结论是：在同城环境下，采用Paxos协议的系统能够做到持续可用；而在异地场景，由于网络延迟，仍需根据业务需求在一致性与可用性之间做出权衡。

本机暂存

IT 2012-04-07 14:44:38 / 累计浏览 5,980

AWS云平台系列介绍（一）：AWS平台与EC2介绍

这篇讲的是如何快速理解AWS云平台的全貌及其核心计算服务EC2。作者从AWS庞大的服务矩阵切入，没有堆砌功能列表，而是帮读者梳理出一条清晰的学习主线：先把握区域、可用区、边缘站点这些基础架构概念，再重点深入到最常用的EC2实例。文章详细对比了通用型、计算优化型、内存优化型等不同实例族的适用场景，并给出了如何根据业务负载的CPU、内存、网络需求进行选型的具体思路，比如Web应用常用t系列，内存密集型任务选r系列。对于新手容易困惑的AMI镜像、密钥对、安全组等配置项也做了实战化解释。结尾处回归到成本视角，点明了按需、预留、Spot等计费模式的灵活组合能显著优化开支，为后续的架构设计奠定了扎实的起点。

本机暂存

IT 2011-10-13 13:55:59 / 累计浏览 4,140

GFS论文重读

这篇讲的是对Google文件系统（GFS）经典论文的重新解读。作者带我们回到那个海量数据处理的时代背景，剖析了GFS如何用软件的设计智慧，去应对由大量廉价服务器构成的、故障频发的硬件环境。 GFS的核心思路是坦然接受硬件不可靠的现实，转而通过分布式软件来保障数据的可靠性与服务的高可用。文件被分割为64MB的大块，通过多副本机制进行冗余存储。一个主控服务器集群管理所有元数据，并与数据服务器分离，有效避免了单点瓶颈。数据追加写入时采用“至少一次”的语义，并通过租约机制来协调多个副本间的更新，巧妙地保证了一致性，同时优化了性能。这种将复杂性从硬件层转移到软件层的设计哲学，不仅让GFS在当时成功支撑了包括搜索在内的诸多大规模应用，其核心思想如分块、副本、中心化元数据管理等，也深刻影响了后续HDFS等众多分布式存储系统的发展。论文重读的意义，就在于再次审视这些化繁为简的优雅设计。

本机暂存

IT 2011-08-24 14:01:12 / 累计浏览 4,400

跨机房问题

跨机房部署是分布式系统绕不开的硬骨头，数据一致性、延迟、故障切换，每一项都直接影响业务连续性。这篇文章从传统数据库经典的“同城双活+异地灾备”模式切入，剖析了其在应对跨地域流量调度、数据实时同步和快速故障转移时存在的瓶颈。作者没有停留在指出问题，而是深入讨论了两种主流改进路径：一种是基于数据库中间件或代理层的逻辑解耦方案，通过读写分离和数据分片来管理跨机房流量；另一种则是转向原生支持多活的分布式数据库架构，利用其内置的数据同步与一致性协议来从根本上简化运维复杂度。文章对两种方案在实现复杂度、一致性保障程度和运维成本方面的核心差异进行了清晰对比，并指出各自的适用场景——前者更适合渐进式改造与特定业务分片，后者则面向对多活与弹性有极高要求的全局性业务。对于正在规划或面临机房级容灾升级的技术团队，文章提供的对比分析框架和实践视角，能有效帮助他们在不同业务约束下做出更贴合实际的技术选型。

本机暂存

IT 2011-08-22 12:29:29 / 累计浏览 3,480

Google Megastore系统事务机制

这篇讲的是如何在Google Bigtable之上实现完整的事务机制。Bigtable虽然扩展性强，但只提供简单的Get/Scan读接口和单行事务写接口，很难满足复杂业务需求。作者从Megastore的底层架构（GFS+Bigtable）出发，深入剖析了它如何通过客户端封装来突破这些限制。关键点在于Megastore引入了Entity Group这一数据模型——把逻辑关联的数据组织到同一分组，从而在保证扩展性的同时，实现了跨行的ACID事务。文章还提到了多机房同步等高级特性，说明这套系统如何支撑社交、邮箱、Google日历这类既要求高扩展又需要强一致性的场景。实际上，Megastore的巧妙之处在于它没有重写底层存储，而是在上层构建了一个兼容分布式扩展与事务语义的完整系统。这种“分层增强”的思路，对今天设计云原生数据库依然有参考价值。

本机暂存

IT 2011-06-23 13:43:08 / 累计浏览 2,860

从Megastore看RDBMS和NOSQL系统结合

这篇文章从Google Megastore的实践出发，探讨了如何在数据库系统设计中兼得RDBMS的功能完整性与NOSQL的扩展性。作者开篇就点明了RDBMS和NOSQL各自的核心优势：前者强在事务支持、强一致性、灵活的查询（随机读与顺序扫描）和索引；后者则在扩展性与性能上更胜一筹。文章指出，Google的经验表明，在构建大规模系统时，可扩展性往往是更底层、更关键的设计约束。 Megastore的解决方案颇具启发性。它没有试图在单一层面上融合两者，而是巧妙地利用了已有的基础设施：底层依赖GFS与Bigtable提供的海量可扩展存储能力，而在这个坚实的基础上，Megastore在上层精心实现了包括ACID事务、SQL-like查询在内的丰富功能。这种分层的设计思路，使得系统既获得了云时代必需的弹性扩展能力，又没有牺牲开发者所需的高级数据库特性。归根结底，这篇文章阐述了一种务实的架构哲学：在可扩展的基础设施之上构建丰富的功能层，或许是应对数据复杂性与规模挑战的有效路径。

本机暂存

IT 2011-06-21 13:25:14 / 累计浏览 3,820

GDB的两个技巧

这篇讲的是两个提升GDB调试效率的实用技巧。作者从日常调试中常见的痛点出发，没有停留在基础命令介绍，而是聚焦于两个能显著简化操作、提高排查速度的进阶用法。第一个技巧涉及如何更高效地处理多线程调试。文章指出，在复杂的线程环境中，仅靠基本的 `thread apply all` 命令有时不够灵活。作者推荐了一种结合条件断点与线程筛选的组合技，能够精准地将断点作用于特定线程，避免在无关上下文中浪费时间。这特别适用于只关心某个线程特定状态下的变量或调用栈的场景。第二个技巧围绕自动化调试步骤展开。作者分享了利用GDB的钩子（hook）命令，在特定操作（如 `next` 或 `step`）后自动执行预设的命令列表。例如，可以在每次单步执行后自动打印关键变量的值，从而省去手动输入的重复劳动，让调试流程更连贯。这两个技巧的共同点在于，它们都旨在将调试者的注意力从重复、繁琐的命令操作中解放出来，更专注于逻辑分析本身。文章通过具体的命令示例和适用场景说明，让读者能立即上手尝试。

本机暂存

IT 2011-06-20 13:34:29 / 累计浏览 6,980

缓存设计的一些思考

缓存就像清凉油，哪里不舒服抹一下就好了——这个比喻生动地道出了缓存在互联网架构中的核心价值：以较小容量、较高成本的存储，为系统“扩容”。这篇文章围绕缓存设计，从算法、锁优化到硬件演进，展开了一系列扎实的思考。作者首先拆解了最常用的LRU算法，对比了Memcache基于Slab的分块内存管理与Oceanbase以2MB整块为单位的回收策略，两者各有工程取舍。面对多线程下的锁冲突，文章梳理了四种优化思路：从细粒度加锁、多LRU链表分片，到牺牲精确性换取无锁操作（如Oceanbase后续的访问计数策略），以及批量更新。这些实践揭示了高并发缓存设计中“精度”与“并发度”的权衡。文章进而引入了LIRS算法，它通过区分LIR（热点）与HIR（冷数据）两级，解决了LRU在顺序扫描和循环数据集大于缓存时的命中率难题，Oracle的Touch Count算法也采用了类似分级思想。最后，作者将视野扩展至SSD存储，探讨了在write-back和write-through两种模式下，缓存角色可能发生的演变。作者坦言当前工作尚浅，并提供了LIRS论文与Oracle算法文档等一手资料，为想深入探究的读者指明了方向。

本机暂存

IT 2011-05-17 09:20:48 / 累计浏览 2,980

Microsoft Azure Storage架构分析

这篇讲的是 Microsoft 云存储服务的底层架构选择。作者从 Azure Storage 与 SQL Azure 的服务定位差异入手，剖析了云存储系统设计中一个核心的权衡：可扩展性与传统关系型功能之间的取舍。文章指出，要实现海量数据的弹性扩展，就必须对 SQL 数据库的强一致性、复杂事务等特性做出让步。核心分析围绕 Azure Storage 的具体实现展开。它并非一个单一系统，而是将数据存储拆分为 Blob、Table、Queue 等不同服务，各自针对特定场景优化。例如，Table 存储虽名为“表”，却采用了键值对和最终一致性的设计，这牺牲了部分查询能力，却换来了近乎无限的横向扩展能力。文章详细拆解了这两种实现思路（例如分区、复制策略）是如何服务于此架构目标的。最终，作者不仅解释了“是什么”，更阐明了“为什么”。这篇分析的价值在于，它清晰地揭示了现代云存储服务背后的设计哲学：没有普适的最佳方案，只有针对特定场景（如高吞吐、海量对象存储 vs. 事务处理）的明智权衡。对于正在设计系统或进行技术选型的开发者而言，理解这种权衡逻辑比记住某个具体产品的参数更有意义。

本机暂存

IT 2011-03-27 23:36:03 / 累计浏览 3,020

Amazon S3 & Simpledb内部实现分析

这篇讲的是Amazon S3和Simpledb这两个云存储服务的内部实现机制分析。作者从已公开的Dynamo论文、S3申请的“Keymap Service Architecture for A Distributed Storage System”专利以及两个系统的对外API出发，尝试推测它们的内部架构设计。 S3的专利揭示了其分布式键值存储的核心，Keymap Service负责将数据键高效映射到具体的存储节点，这有助于实现负载均衡和快速数据访问。虽然Simpledb的实现细节未公开，但基于Dynamo论文，文章推测它可能采用了类似的一致性哈希和向量时钟技术，来处理数据分区和冲突解决，确保在分布式环境下的数据一致性。文章进一步解析了这些系统如何在大规模场景下实现高可用性和持久性，例如通过多副本复制和自动故障恢复机制。推测中还涉及了数据一致性模型的选择，权衡了CAP定理中的不同要素，展示了云存储设计中的一些巧妙权

本机暂存

IT 2011-03-22 23:34:02 / 累计浏览 5,680

Amazon分布式系统Dynamo

这篇讲的是作者对Amazon Dynamo这一经典分布式系统的重新审视。从2009年首次阅读论文时“眼前一亮”，到如今结合S3专利有了更深认识，其心得凝练为“纠结”二字。作者指出，Dynamo巧妙地组合P2P技术，通过可调的NWR策略试图在CAP间取得平衡，一度让相关概念成为行业热词。其获得OSDI最佳论文奖，并应用于购物车等核心场景，看似是卓越设计。然而，随着实践深入，作者发现Dynamo的设计本身存在矛盾，适用场景比较有限，其中一些设计思路甚至可能产生误导。文章从一位技术人长期跟进的视角出发，为我们提供了一个重新评估“教科书级”系统的样本，提醒我们关注经典方案背后的真实权衡与时代局限性。

本机暂存

IT 2011-01-29 22:33:24 / 累计浏览 6,840

SQL到NOSQL的思维转变

这篇讲的是数据库选型中一个常被忽略的思维差异：为什么NOSQL常标榜性能超越传统关系型数据库？文章指出，关系型数据库经过数十年的优化与积累，其技术深度不容小觑，许多NOSQL系统的设计也吸纳了这些成熟技术。然而，作者从系统设计层面提出了一个关键问题：究竟是什么架构上的因素，在理论上限制了关系型数据库的性能天花板？文章并非简单罗列功能对比，而是引导读者从底层设计哲学出发，思考SQL与NOSQL在数据模型、扩展性与一致性上的根本权衡，从而理解不同架构各自适配的场景与局限。

本机暂存

IT 2011-01-29 22:32:55 / 累计浏览 3,220

【分布式系统工程实践】随机访问KV存储引擎

这篇讲的是如何为一个最基础的随机访问KV存储引擎设计数据存储方案。核心矛盾在于磁盘适合顺序读写，但应用需要的是快速的随机读写。作者的思路很直接：所有写入（包括更新和删除）都以追加方式顺序写入数据文件。为了支持快速读取，在内存中维护一个索引，记录每个Key对应Value在数据文件中的最新位置。对于删除操作，不是真的去文件里找数据擦除，而是同样追加一条“删除标记”，这样读取时遇到标记就知道数据已失效。这种设计的巧妙之处在于，它用“追加写”这个对磁盘最友好的方式，模拟出了上层需要的随机写能力，代价是需要后台进行文件压缩来真正回收空间。同时，为了尽可能缩小内存索引的体积，作者提出可以只支持64位整数作为Key（其他类型可哈希转换），这是一个典型的用约束换性能的工程权衡。整个实现清晰地展示了如何在硬件特性限制下，通过简单的抽象（追加日志+内存索引）构建出一个实用的存储原语，为理解更复杂的LSM-Tree等结构打下了基础。

本机暂存

IT 2011-01-29 22:32:23 / 累计浏览 4,440

【分布式系统工程实现】Bigtable Merge-Dump存储引擎

这篇讲的是Bigtable底层那个很关键的存储引擎——Merge-Dump，它怎么在单机上把读写都管好。作者从实际需求出发，指出像MapReduce批处理、广告统计、商品管理这些场景，不仅需要随机查，还得能高效地按顺序扫一大片数据。简单的KV存储只管随机读写就够了，但做Bigtable这种通用表格系统，顺序扫描是绕不过去的核心能力。文章重点拆解了Merge-Dump的设计思路：它不是简单地写进去读出来，而是把数据写入和读取扫描的路径巧妙地结合并优化了。为了同时满足这两种不同的访问模式，它内部的数据组织和合并机制有一套精巧的工程实现。正是这种设计，让Bigtable能在处理海量数据时，依然保持灵活的数据录入和高效的批量分析能力。作者通过这个具体案例，其实揭示了构建分布式存储系统时一个普遍且根本的挑战：如何在单一存储层里，优雅地平衡好写入吞吐、点查性能和范围扫描效率。

本机暂存

IT 2011-01-29 22:31:37 / 累计浏览 4,620

Facebook Haystack图片存储架构

这篇讲的是Facebook在2010年OSDI会议上公开的图片存储系统Haystack。它解决的核心问题是：当图片数量达到千亿级别时，传统存储系统（如为小文件优化的NAS）会因海量元数据寻址和磁盘IO导致严重性能瓶颈，难以支撑用户流畅的图片上传与浏览体验。作者从Facebook的实际困境出发，介绍了Haystack的核心设计。其巧妙之处在于，系统将大量小图片聚合到一个大文件中，并大幅简化元数据（仅保留必要的偏移量和长度），从而将一次图片读取操作从多次随机磁盘寻址，转变为一次顺序读取。这种架构显著减少了存储设备的寻道压力，提升了缓存效率。论文中的实验数据表明，Haystack相比传统方案，能将缓存未命中时的磁盘操作次数减少100倍以上，这直接支撑了Facebook图片服务的高速增长。整个系统设计印证了作者的观点：面对超大规模数据，有效的工程化架构往往比复杂的技术堆砌更为重要。

本机暂存

IT 2011-01-29 22:31:09 / 累计浏览 5,220

GLIBC内存分配机制引发的“内存泄露”

这篇讲的是作者在开发一个类数据库系统时，遇到的一个相当隐蔽的内存管理问题。他们发现，内存模块显式释放了10GB内存后，通过系统工具观察，内存占用却可能停留在10GB，也可能降到5GB或3GB，行为非常不确定，看起来就像“内存泄露”。作者将矛头指向了底层GLIBC的内存分配机制。核心原因在于，GLIBC的`malloc`/`free`并不会立即将释放的内存归还给操作系统，而是由其内部的分配器管理。只有当释放的内存块满足特定条件（如位于堆顶的连续空闲块），它才会被合并并最终通过`brk`或`mmap`系统调用返还给OS。这个“不确定”的释放行为，正是由GLIBC分配器的这种惰性策略导致的。文章并未停留在现象描述，而是深入分析了触发GLIBC归还内存的条件和机制。对于开发者而言，这意味着需要更精细地管理内存分配模式，例如考虑使用预分配或内存池来规避这类不确定性，确保关键模块的内存占用保持可预测。这对于构建稳定可靠的长期运行服务非常有启发。

本机暂存

IT 2011-01-29 22:28:57 / 累计浏览 3,700

【分布式系统工程实现】如何检测一台机器是否宕机？

这篇讲的是分布式系统里一个基础但关键的问题：如何可靠地检测一台机器是否宕机。作者从一个实际工程需求出发，直接切入了机器故障检测的复杂性。在分布式环境中，简单的“ping”指令远远不够，网络延迟、瞬时负载都可能让节点暂时无法响应，误判会导致不必要的服务切换或丢失真正的故障信号。文章没有停留在理论，而是聚焦于工程实现层面的常见做法。核心方案通常围绕心跳检测机制展开，即正常节点定期向目标机器发送微小探针数据包。关键细节在于如何设定合理的超时阈值、处理网络抖动，以及当心跳失败时，如何协调多个观测者节点做出一致的故障判定，避免“脑裂”场景。文章很可能探讨了如何结合主动探测与被动监控，或是引入类似Gossip协议的故障传播机制来增强检测的覆盖面与准确性。其价值在于将教科书上的故障检测模型，落地为了可在生产环境中实施的具体步骤与考量点，对于需要构建或维护高可用系统的工程师来说，这些从实践中总结出的设计取舍和边界条件处理，比单纯罗列算法更有指导意义。

本机暂存

IT 2011-01-29 22:12:55 / 累计浏览 10,500

GFS, HDFS, Blob File System架构对比

这篇讲的是如何在GFS、HDFS与Blob File System（包括TFS、QFS、Haystack）之间做出技术选型。作者从分布式架构的角度出发，梳理了三种主流文件系统的核心差异。文章首先点明，GFS和HDFS是两类基础而强大的分布式文件系统，分别奠定了Google和Hadoop生态的存储基石。随后，作者将焦点转向Blob FS这一类别，解释了它们为解决海量小文件存储（如相册、图片）这一特定问题而生的背景。关键对比在于：GFS/HDFS擅长处理大规模、大文件的批处理场景，强调高吞吐；而TFS、QFS这类Blob FS则通过扁平化结构、元数据分离等设计，优化了海量小对象的低延迟访问与高并发写入。读完这篇，能帮你快速厘清这些系统的设计哲学：当你面对的是日志、数据集等大文件时，传统架构更合适；而要应对海量用户生成的小文件时，Blob FS的针对性优化则是更高效的选择。

本机暂存

IT 2011-01-29 22:04:08 / 累计浏览 3,120

Microsoft Azure存储架构设计

这篇讲的是微软Azure如何设计其存储架构，特别是以SQL Azure为例的深度剖析。文章从云环境下数据存储面临的一致性、可用性与可扩展性平衡挑战出发，揭示了微软在应对超大规模数据场景时的核心设计思路。作者深入剖析了Azure Storage所采用的“存储计算分离”架构，重点阐释了其底层如何通过分布式文件系统（如Cosmos）实现数据冗余与分发，并在此之上构建出高效可靠的Blob、表、队列等存储服务。文章特别点明了这种设计带来的关键优势：计算资源可以按需独立于存储进行弹性伸缩，从而更灵活地匹配业务负载。此外，文中还探讨了SQL Azure如何依托此基础架构，将传统的数据库功能“云化”，并确保了企业级的高可用与灾难恢复能力。通过具体的架构组件与流程说明，文章清晰地呈现了Azure存储系统为现代云原生应用提供的坚实、灵活且高性能的数据基石。

本机暂存

IT 2011-01-29 22:03:32 / 累计浏览 6,120

分布式系统的数据结构

这篇文章梳理了分布式系统中常用的数据结构及其应用场景。作者将数据结构明确分为两类：一类是解决通用查找、更新和删除操作的“通用型”，包括数组、队列、堆栈、链表、平衡二叉树、B树和哈希表；另一类则是针对特定问题的“专用型”，例如图、Trie树、堆以及后缀数组。这种分类方式揭示了数据结构选型背后的核心逻辑。在设计分布式系统时，并非所有数据结构都平等地适用于所有场景。通用型结构是构建各类服务的基石，保证了基础操作的效率。而专用型结构，如Trie树在快速检索前缀、图在处理复杂关系网络时的不可替代性，则为解决特定性能瓶颈或复杂逻辑提供了精准的工具。文章清晰地划定了二者的边界，帮助读者在面临实际技术选型时，能根据问题本质快速定位最合适的解决方案。

本机暂存