标签：HBase

共 33 篇相关文章

IT 累计浏览 2,415

HQueue：基于HBase的消息队列

这篇讲的是阿里一淘团队如何用HBase“搭积木”，造出一个叫HQueue的分布式消息队列。作者从时间序列存储、MapReduce数据输入输出等场景的实际需求出发，选择了站在HBase的肩膀上。核心思路很巧妙：把消息直接存为HBase的KV对，利用HTable的多Region实现高并发，用Coprocessor来保证消息ID的唯一有序，并处理消息的持久化。这样一来，HBase本身的自动Region迁移、动态负载均衡和数据持久化能力，就直接变成了HQueue的“超能力”，实现了自动容错、消息不丢和性能优化。文章还详细拆解了它的设计细节：比如用PartitionID+Timestamp+SequenceID组合成RowKey来保证消息全局有序，通过不同的Scanner支持灵活扫描，以及在0.3版本后引入的基于ZooKeeper的订阅推送机制。整体来看，这为需要可靠消息队列又已有HBase技术栈的团队，提供了一个无需额外组件、可随HBase无缝升级的解决方案。

IT 累计浏览 2,173

Pora2应用中HBase高并发读写性能优化

这篇讲的是淘宝搜索的Pora2实时分析系统在大量使用HBase进行高并发读写时，所遇到的一系列性能“坑”及优化实践。系统上线后出现处理延迟、集群压力大的问题，排查发现根源主要在于HBase的使用方式。文章拆解了几个典型案例：一是HBase默认的Periodic Flusher机制引发了过于频繁的flush与compact，通过调整其超时阈值得到了缓解；二是下游消费消息队列时未控制Scan频率，对Region Server造成了无谓压力；三是在超大并发下，过多的客户端连接耗尽了服务端Handler，作者的解决方案是减少进程数、增加线程数以复用连接。此外，还涉及了因rowkey生成代码bug导致的数据访问热点，以及Bulk Load数据未做Major Compaction引起的读取性能衰减。文章最后总结道，高并发场景下必须合理使用HBase，避免不当操作形成“越慢越压、越压越慢”的恶性循环。这些从实战中沉淀的细节，对同类系统的设计与调优很有参考价值。

IT 累计浏览 1,655

HBase在单Column和多Column情况下批量Put的性能对比分析

这篇讲的是HBase在不同数据模型下批量写入的性能差异。作者从一个实际现象出发：将数据存储在单个列（单列模式）与拆分成多个列（多列模式）时，批量Put的吞吐量存在巨大差距。测试数据显示，单列模式的TPS是多列模式的7倍以上，RPC调用次数也相差9倍。文章核心是从HBase的KeyValue内存模型入手，解释了这种差距的根本原因。在多列模式下，每一列都会携带大约50-60字节的元数据开销（如行键、列族、时间戳等），导致一行数据在客户端缓冲区中占用的内存远大于单列模式，进而触发更频繁的RPC提交，拉低了整体吞吐。作者通过代码计算put.heapSize()和KeyValue对象大小，验证了这一理论估算与测试结果高度吻合。文章最终给出实用建议：如果业务模型必须使用多列存储，在批量写入场景下，可以考虑适当调大客户端的write buffer，以缓解性能下降。

IT 累计浏览 1,567

使用HBase EndPoint（coprocessor）进行计算

当面对千万、亿级数据量时，对HBase表进行全表扫描来统计行数或分组聚合，会带来巨大的网络与RPC开销。这篇技术分享给出了一个优雅的解法：使用HBase的Endpoint协处理器。作者的核心思路是，将计算逻辑直接部署到数据所在的RegionServer上执行，只将聚合后的结果返回客户端。这就好比把计算任务“下发”到每个数据分区，避免了海量原始数据的网络传输。文章将这个过程比作一个精简高效的、运行在RegionServer上的MapReduce。具体实现分为三步：首先定义一个继承自CoprocessorProtocol的计数接口；然后在服务端实现该接口，在Region内完成数据扫描与计数；最后在客户端通过HBase API发起远程调用，并汇总各个Region的统计结果。文章不仅给出了清晰的代码示例，还详细说明了如何通过配置文件或Shell命令来部署这个协处理器。通过行数统计这个简单例子，文章展示了Endpoint协处理器如何为HBase添加灵活的计算能力，使其成为高效应对大规模数据聚合挑战的利器。

IT 累计浏览 5,862

nosql数据库选型

作者翻阅了《七天七数据库》一书后，结合自身多个项目从MySQL迁移到NoSQL的实际需求，分享了一套具体的数据库选型方案。他指出，不同的业务场景需要不同的数据库来发挥最大价值。对于社区网站中复杂的关系数据（如用户关注、图片关联），他摒弃了传统关联表，选择了原生支持图关系的Neo4j，这不仅简化了数据模型，也提升了查询性能和开发体验。而面对网站丰富且结构多变的内容模型（如用户、站点），他看中了MongoDB对复杂索引查询的良好支持，认为其能完美替代MySQL的大多数功能，并可能简化缓存层，甚至取代部分Redis的角色。在处理高写入、弱一致性要求的微博本地缓存时，他对比后认为Cassandra在写性能和可用性上优于MongoDB。对于极高并发的API服务，他则在Cassandra和Riak之间权衡，前者在列式存储和写性能上可能更具优势。整篇文章从具体业务痛点出发，详细对比了不同NoSQL数据库在一致性、查询能力、性能及运维复杂度上的关键差异，并给出了清晰的选型结论。这为同样面临类似技术过渡的开发者，提供了一个非常实用且可参考的架构思路。

IT 累计浏览 2,955

Impala：新一代开源大数据分析引擎

这篇讲的是Cloudera推出的Impala，一个旨在解决Hive查询速度瓶颈的开源大数据分析引擎。文章详细拆解了Impala如何借鉴Google Dremel的思想，采用列式存储（Parquet格式）和多层查询树架构，摆脱MapReduce的批处理束缚，从而在交互式查询上实现数量级的性能提升。作者将Impala与同期的Shark、Apache Drill进行了横向对比。Impala的优势在于相对成熟的工程实现和快速的查询响应，但其容错机制较弱，且开源生态初期主要绑定Cloudera自家发行版。相比之下，基于Spark的Shark在内存计算和容错性上更有优势，而Apache Drill则更具平台开放性，尽管当时开发进度稍慢。文章通过性能对比图表指出，尽管Impala和Shark都远超Hive，但与Amazon Redshift等商业MPP数据库仍有差距。文章的最终观点是，大数据分析的未来不在于某一技术的独胜，而在于Hadoop生态（如YARN）将兼容并包，让不同引擎各司其职——Impala这类系统擅长秒级交互查询，而MapReduce则继续处理大规模批处理任务。这场技术竞争正推动大数据分析变得更成熟、易用和普惠。

IT 累计浏览 2,873

HBase解决Region Server Compact过程占用大量网络出口带宽的问题

这篇讲的是作者在维护一个HBase 0.94.0集群时遇到的实际问题。他们发现多台Region Server的网络出口带宽经常跑满千兆网卡极限（接近100MB/s），机器负载也异常高。在排查中，一个关键疑点是：根据查询量估算，出口带宽本应只需约60MB/s，但实际观测值却多出了约40MB/s。经过对源码（CompactSplitThread.java）的分析，根因被定位为集群在高写入压力下频繁触发了Compaction。由于Compaction过程本身需要读取大量数据，从而“偷走”了这部分额外的网络带宽。这是一个在0.92版本后，因引入small/large Compaction线程而可能出现的典型性能问题。为此，作者提出了两个具体的配置调整方案。核心思路都是减少Compaction的并发度或触发频率：一是通过调大throttle值强制所有Compaction变为small类型，并保持线程数为1；二是直接将small Compaction线程数设为0以关闭它。应用配置后，Region Server的网络利用率显著下降至70MB/s以下，问题得到有效解决。

IT 累计浏览 6,716

HBase Thrift 接口使用注意事项

这篇讲的是作者在实际使用HBase Thrift接口（基于0.92.1版本）时，总结出的几个关键陷阱和注意事项，对开发者在实际对接时避坑非常实用。文章首先强调了字节存储顺序的重要性。由于HBase内部按字典序排序，row key和value中的数值类型在转换成byte数组时，必须严格使用大端序进行打包和解包，否则会导致数据无法正确检索。作者给出了C++和PHP中的具体处理示例。接着，文章指出了一个在PHP和C++接口中行为差异显著的“TScan设置陷阱”。在PHP中，直接设置属性即可生效；但在C++中，必须通过专用的`__set_xxx()`方法赋值，才能将内部的`__isset`标记置为true，否则服务端会忽略这些设置，导致扫描从头开始。最后，文章从运维角度提出了两点建议：一是合理配置Thrift Server的并发线程数（通过`-threadpool`参数），避免请求被阻塞；二是当进行带缓存的扫描操作时，需要调大Thrift Server的最大堆内存（`HBASE_HEAPSIZE`），以防止因缓存数据过多而引发内存溢出错误。这些问题都是实际开发部署中容易忽略的细节，但对系统性能和功能正确性有着直接影响。

IT 累计浏览 17,221

HBase集群出现NotServingRegionException问题的排查及解决方法

这篇讲的是HBase集群在压力测试中频繁出现NotServingRegionException，导致读写波动乃至短暂不可用的实战排查经历。作者从实际压力测试中遇到的问题出发，发现当每秒读写量达到几十万条时，客户端会周期性地抛出大量异常。经过对Master日志的分析，问题的根因被定位到两个关联过程：一是由于rowkey包含时间戳且写入量巨大，导致频繁的Region Split（平均耗时约10秒）；二是Split后Region分布不均，进一步触发了自动的Region Balance（平均耗时约20秒）。这两者都会造成Region暂时下线。为解决这一问题，文章从客户端和服务端两个层面提出了具体方案。客户端侧，可通过设置自动刷写（autoFlush）保留写入缓冲区，或调整重试次数与间隔来增强容错。服务端侧则更为关键，建议关闭自动Balance并选择低峰期手动执行；同时针对Region无限增长的问题，提出了两种根治思路——按天分表或巧妙地将时间戳字段改造为周期循环值，从而实现Region的复用。整个过程提供了清晰的排查逻辑与可落地的解决方案。

IT 累计浏览 2,571

HBase Block Cache实现机制分析

这篇讲的是HBase的Block Cache——RegionServer中负责读缓存的核心模块。它从HBase的读写内存分工切入，解释了读请求如何依次查询Memstore、BlockCache和磁盘，并最终将结果缓存的完整链路。文章重点剖析了BlockCache的“三级缓存”设计：新访问的Block放入Single队列，多次访问则升至Multi队列，而Meta表等关键数据则放入InMemory队列。这种分级策略既保护了关键元数据，又避免了全表扫描对热点数据的冲击。默认的内存分配比例（Single:Multi:InMemory = 0.25:0.50:0.25）和LRU淘汰策略，是其在内存限制下平衡命中率的关键。作者还深入到了HBase 0.94.1的源码层面，以`LruBlockCache`类为例，展示了缓存Block时的类型判定逻辑，以及触发后台淘汰线程`EvictionThread`的阈值条件。从整体内存布局到具体的优先级队列实现，文章清晰地拆解了HBase在保证高并发读性能时，所采用的这套精巧的缓存管理思路。

IT 累计浏览 3,811

HBase如何合理设置客户端Write Buffer

这篇技术博客从实战角度出发，深入剖析了HBase客户端的Write Buffer机制。文章指出，每次单条Put都会引发一次网络往返（RTT），在数据量小、RTT较高的场景下，这个开销会成为性能瓶颈。通过开启Write Buffer进行批量提交，可以将N次RTT降低为一次，从而显著提升写入吞吐。作者没有停留在概念介绍，而是结合HBase源码，揭示了底层实现细节：客户端会先按Region Server将Put对象分组打包，再统一发起RPC请求。文章还详细拆解了Write Buffer的触发条件（如autoFlush设置、缓冲区满），并给出了单个Put对象大小的预估公式 `((50~60) + L1) * N + L2 bytes`，帮助开发者根据自身数据特征（列数N、RowKey长度L1、Value长度L2）来预估并合理配置缓冲区大小。最终，文章清晰地划分了适用场景：对于KB级别的小数据写入，调整Write Buffer收益明显；而对于MB级别的大记录，由于数据传输时间占主导，则不建议依赖此机制。这种从原理到源码再到实践的分析路径，为调优HBase写入性能提供了扎实的依据。

IT 累计浏览 2,629

HBase在淘宝主搜索的Dump中的性能调优

这篇讲的是HBase在淘宝主搜索Dump系统中的性能调优实践。作者从Dump系统“短时、高量、低延时”的核心需求出发，分享了在将HBase应用于全量与增量数据存储时积累的优化经验。文章没有停留在架构介绍，而是深入到了具体瓶颈和应对措施，比如如何通过一系列调优手段来满足苛刻的延时要求，从而有效缓解了数据库压力并增强了业务扩展性。对于关注大数据存储引擎性能优化的工程师来说，文中涉及的具体实践和思路具有直接的参考价值。

IT 累计浏览 2,222

(H2与HBase)面向行or面向列的存储模型?

这篇文章聚焦于一个数据库领域的核心议题：行存储与列存储的区别。作者以两个具有代表性的系统——内存数据库 H2 和大数据框架 HBase 作为切入点，来解析这两种模型。文章清晰地指出了它们的本质差异：H2 采用经典的面向行存储，数据按行连续存放，非常适合事务性操作（OLTP），例如需要快速读写完整记录的场景。而 HBase 则是面向列族存储，数据按列族组织，同一列族的数据物理上存储在一起。这种设计带来了极高的压缩率和对海量数据的分析查询（OLAP）性能优势。文章的价值在于，它没有停留在概念区分，而是具体分析了背后的工程权衡。例如，列存储在写入时因为数据分散会带来开销，但换来的查询性能和压缩收益在分析场景下是决定性的。通过 H2 与 HBase 的对比，文章生动地展示了没有“最好”的存储模型，只有“最合适”的模型，关键要看应用是侧重于高频事务处理，还是海量数据分析。

IT 累计浏览 2,848

OpenTSDB监控系统的研究和介绍

这篇讲的是如何用OpenTSDB构建可扩展的时序监控系统。作者从大规模分布式系统监控的痛点切入：传统监控工具在应对海量、高频的指标数据时，往往在存储、查询和聚合上力不从心。文章重点剖析了OpenTSDB的核心架构与设计思想。它基于HBase构建，通过独特的UID编码（如metric、tagk、tagv的映射）大幅压缩存储空间。其核心的TSD守护进程负责接收、存储和查询数据，而底层的HBase集群则保障了数据的水平扩展能力。文中还提到了其灵活的数据模型，允许为每个指标附加丰富的标签，以及强大的查询语言，支持多维度聚合与降采样。文章指出，OpenTSDB的优势在于将监控数据视为核心资产，提供了高性能的写入与灵活的查询能力，特别适合需要长期保存并分析海量指标数据的场景，比如互联网公司的业务监控、服务器性能监控等。不过，作者也客观提到，它的部署和运维相对复杂，对底层基础设施有一定要求。

IT 累计浏览 3,640

一个DBA眼中的HBase

这是一位一线DBA对流行技术的冷静思考。当HBase与NoSQL的光环铺天盖地时，作者从日常运维的视角，剖析了那些光鲜宣传背后的实际挑战。文章没有复述官方特性，而是直指几个核心痛点：比如高并发写入下的性能瓶颈、复杂查询的局限性，以及运维管理的复杂度。作者结合自身经验，点明了在特定业务场景下可能出现的“水土不服”，例如强一致性要求或复杂Join查询时的尴尬。其价值不在于否定技术，而是提供了一份来自“用户现场”的平衡报告。它提醒技术决策者，选型不能只看热度，必须紧扣业务特性与团队运维能力。对于正在评估或已深陷HBase运维的团队来说，这篇来自DBA的真诚复盘，或许能帮你避开一些理想的陷阱。

IT 累计浏览 2,698

HBase中如何开发LoadBalance插件

这篇讲的是如何在HBase中开发自定义的LoadBalancer插件。作者从HBase早期版本的痛点出发：在0.92版本之前，控制Region分配与负载均衡的策略被硬编码在Master内核中，开发者想要定制自己的负载均衡逻辑，只能去“黑”源码，并且每次版本升级都得艰难地移植这些修改。 HBase 0.92版本带来了一个重要的架构改进——将LoadBalancer策略从Master中解耦，开放了标准的LoadBalancer接口。这意味着开发者现在可以像实现一个Java接口那样，编写符合自己业务集群特性的负载均衡插件，而不再需要侵入HBase核心代码。这篇文章详细介绍了这个接口的定位和扩展方法，为那些需要对集群Region分布进行精细、定制化控制的场景提供了清晰的实现路径。通过这种方式，插件与HBase核心得以解耦，便于维护和升级。

IT 累计浏览 2,775

关于HBase的一些零碎事

这篇讲的是HBase这个分布式数据库如何从技术幕后走向前台，成为支撑大规模实时应用的关键选型之一。故事的起点是Facebook那个经典的决策：他们选择HBase来构建实时消息系统，以处理每秒数十万条消息、总计超过135亿用户的海量数据洪流。文章的作者没有停留在介绍HBase的基本概念，而是从这个标志性的工业案例出发，勾勒出HBase持续升温背后的技术逻辑。它抓住了HBase作为面向列存储、基于Hadoop生态的分布式数据库，在海量数据随机实时读写场景下不可替代的价值。这意味着，它解决了传统数据库在数据规模和并发能力上难以逾越的瓶颈。更进一步，文章通过Facebook的案例，延伸探讨了HBase在其他需要高可靠、高性能存储的互联网公司中的渗透与应用，展现了其生态的蓬勃发展。对于技术选型者而言，这不仅是一个工具的故事，更反映了数据规模驱动下存储架构演进的一个清晰切面。

IT 累计浏览 7,040

HBase性能优化方法总结

这篇讲的是，针对 HBase 在实际使用中可能遇到的性能瓶颈，作者从应用程序设计与开发的角度出发，总结了几种行之有效的优化方法。文章明确指出，它聚焦于应用层面的实践，而非系统配置细节（后者则指向了其他专门的参考资源）。从行文来看，摘要应着重体现文章提供的具体优化手段及其应用场景，而不是空泛地谈论性能。这能让读者快速判断文章是否贴合自身在 HBase 开发或运维中遇到的实际问题。结尾自然收束，点明这些思路的实践价值即可。

IT 累计浏览 3,519

Tumblr架构 – 页面浏览量150亿/月并且比Twitter更难拓展

这篇讲的是 Tumblr 如何在每月 150 亿页面浏览量的超高负载下运转，以及为何它的扩展难度被形容为比 Twitter 更大。文章从 Tumblr 庞大的业务规模和技术选型出发，深入剖析了其架构的核心矛盾。作者指出，Tumblr 早期大量依赖 PHP 和 MySQL，这在应对爆发性增长时遇到了严峻挑战。文章具体分析了它们如何处理动态与静态内容的分离，如何引入 Cassandra、Voldemort 等 NoSQL 技术来分担 MySQL 的压力，以及如何通过缓存、异步任务队列等手段构建起一个混合的、逐渐演进的复杂系统。文章的核心观点并非单纯介绍技术栈，而是揭示了“快速开发”与“架构债务”之间的经典权衡。Tumblr 的案例表明，在业务高速增长期，许多决策是“正确的紧急应对”，却为长期扩展埋下了伏笔，使得后续的每一次大规模重构都异常艰难。这些来自一线的实战经验，为所有面临类似增长曲线的技术团队提供了一面镜子：如何在速度、资源与未来可持续性之间找到那个动态平衡点。

IT 累计浏览 3,298

HBase在数据统计应用中的使用心得

这篇讲的是作者团队在实际项目中使用HBase作为数据统计存储系统后的经验沉淀。他们从项目对高性能写入和灵活查询的具体需求出发，选择HBase作为底层引擎，但在落地过程中遇到了不少挑战。文章重点分享了针对统计应用特点的关键实践。例如，如何设计RowKey和预分区策略来避免热点，提升写入吞吐量；针对高频的聚合查询，如何权衡使用协处理器与客户端扫描来优化性能；以及在面对海量数据持续写入时，如何通过调整Compaction策略来平衡读写压力，保障服务稳定性。作者没有泛泛而谈，而是结合真实场景中的数据量和业务模式，给出了具体的配置思路和参数调整案例。这些心得和解决问题的路径，对于同样面临海量数据统计存储与快速查询挑战的团队，提供了可参考的踩坑记录和调优方向。