IT技术博客大学习 共学习 共进步

标签:列存储

共 3 篇相关文章

IT 累计浏览 2,184

(H2与HBase)面向行or面向列的存储模型?

这篇文章聚焦于一个数据库领域的核心议题:行存储与列存储的区别。作者以两个具有代表性的系统——内存数据库 H2 和大数据框架 HBase 作为切入点,来解析这两种模型。 文章清晰地指出了它们的本质差异:H2 采用经典的面向行存储,数据按行连续存放,非常适合事务性操作(OLTP),例如需要快速读写完整记录的场景。而 HBase 则是面向列族存储,数据按列族组织,同一列族的数据物理上存储在一起。这种设计带来了极高的压缩率和对海量数据的分析查询(OLAP)性能优势。 文章的价值在于,它没有停留在概念区分,而是具体分析了背后的工程权衡。例如,列存储在写入时因为数据分散会带来开销,但换来的查询性能和压缩收益在分析场景下是决定性的。通过 H2 与 HBase 的对比,文章生动地展示了没有“最好”的存储模型,只有“最合适”的模型,关键要看应用是侧重于高频事务处理,还是海量数据分析。

IT 累计浏览 2,565

深入浅出cassandra 3 例子背后的模型

这篇讲的是Cassandra数据模型的底层逻辑,作者没有从理论开始,而是用三个精心设计的例子,把看似复杂的设计原则拆解得明明白白。比如通过一个社交网络案例,展示了如何用“分区键+集群键”的组合来同时优化写入吞吐和特定查询的性能,这直接点破了Cassandra“为查询而建模”的核心思想。 文章的亮点在于,它通过对比同一个业务在关系型数据库和Cassandra中的不同建模方式,清晰地揭示了两者根本的差异:一个为数据关系的规范化而优化,另一个则为分布式环境下的高可用和水平扩展而生。作者特别指出了在Cassandra中,模型设计如何直接决定了数据的物理分布(分区)与逻辑组织(排序),这是理解其性能特征的关键。 这些例子最终都指向了一个结论:Cassandra模型的“简单”是表象,其背后是对分布式场景下读写模式的深刻权衡。作者把这种权衡背后的思考过程完整地呈现了出来,让读者不仅知道“怎么做”,更能理解“为什么这么设计”。

IT 累计浏览 12,302

hbase介绍

这篇讲的是 HBase 这款分布式 NoSQL 数据库的基础概念与核心特性。文章开门见山地指出,HBase 是为海量结构化与半结构化数据设计的,它基于 Google 的 Bigtable 论文实现,运行在 Hadoop 之上。 它重点剖析了 HBase 区别于传统关系型数据库的几个关键点:面向列的存储模型使其在稀疏数据上极具优势;强一致性保证让应用无需担心读取过时数据;而高可扩展性和线性存储能力,则是应对 PB 级数据的底气。文中也提到了它与 Hive 在实时随机读写场景下的分工。 整体而言,文章旨在为初次接触 HBase 的开发者建立一个清晰的技术画像,帮助理解它在什么样的大数据架构中扮演“随机实时读写”这一关键角色。