Storm入门教程 第五章 一致性事务
这篇讲的是Storm如何保证流数据的“精确一次”处理。作者从一个基本问题切入:Storm的ack机制保证了tuple被成功处理,但如果出错重传,如何确保同一个tuple不会被重复处理? 文章首先分析了两种朴素的设计:强顺序流(一次处理一个tuple,性能差)和强顺序Batch流(一次处理一批tuple,但batch间仍需串行)。这两种方案都因为顺序性限制而难以真正分布式。 为了突破这个瓶颈,文章详细拆解了Storm内部CoordinateBolt的工作机制,它是实现事务协调的关键。基于此,Storm提出了Transactional Topology,其核心是将计算分为可并行的“process”阶段和保证强顺序的“commit”阶段。通过为每个batch分配唯一的transaction id和attempt id,系统能够区分不同的batch以及同一batch的不同重试版本,从而在并行计算的同时实现事务的原子性与一致性。 尽管文章最后指出Transactional Topology已由更现代的Trident取代,但其分阶段处理与版本化ID的设计思想,对于理解分布式系统中如何平衡吞吐与一致性,依然有很高的参考价值。