标签：列存储

共 3 篇相关文章

IT 累计浏览 2,335

(H2与HBase)面向行or面向列的存储模型?

这篇文章聚焦于一个数据库领域的核心议题：行存储与列存储的区别。作者以两个具有代表性的系统——内存数据库 H2 和大数据框架 HBase 作为切入点，来解析这两种模型。文章清晰地指出了它们的本质差异：H2 采用经典的面向行存储，数据按行连续存放，非常适合事务性操作（OLTP），例如需要快速读写完整记录的场景。而 HBase 则是面向列族存储，数据按列族组织，同一列族的数据物理上存储在一起。这种设计带来了极高的压缩率和对海量数据的分析查询（OLAP）性能优势。文章的价值在于，它没有停留在概念区分，而是具体分析了背后的工程权衡。例如，列存储在写入时因为数据分散会带来开销，但换来的查询性能和压缩收益在分析场景下是决定性的。通过 H2 与 HBase 的对比，文章生动地展示了没有“最好”的存储模型，只有“最合适”的模型，关键要看应用是侧重于高频事务处理，还是海量数据分析。

IT 累计浏览 2,639

深入浅出cassandra 3 例子背后的模型

这篇讲的是Cassandra数据模型的底层逻辑，作者没有从理论开始，而是用三个精心设计的例子，把看似复杂的设计原则拆解得明明白白。比如通过一个社交网络案例，展示了如何用“分区键+集群键”的组合来同时优化写入吞吐和特定查询的性能，这直接点破了Cassandra“为查询而建模”的核心思想。文章的亮点在于，它通过对比同一个业务在关系型数据库和Cassandra中的不同建模方式，清晰地揭示了两者根本的差异：一个为数据关系的规范化而优化，另一个则为分布式环境下的高可用和水平扩展而生。作者特别指出了在Cassandra中，模型设计如何直接决定了数据的物理分布（分区）与逻辑组织（排序），这是理解其性能特征的关键。这些例子最终都指向了一个结论：Cassandra模型的“简单”是表象，其背后是对分布式场景下读写模式的深刻权衡。作者把这种权衡背后的思考过程完整地呈现了出来，让读者不仅知道“怎么做”，更能理解“为什么这么设计”。

IT 累计浏览 12,418

hbase介绍

这篇讲的是 HBase 这款分布式 NoSQL 数据库的基础概念与核心特性。文章开门见山地指出，HBase 是为海量结构化与半结构化数据设计的，它基于 Google 的 Bigtable 论文实现，运行在 Hadoop 之上。它重点剖析了 HBase 区别于传统关系型数据库的几个关键点：面向列的存储模型使其在稀疏数据上极具优势；强一致性保证让应用无需担心读取过时数据；而高可扩展性和线性存储能力，则是应对 PB 级数据的底气。文中也提到了它与 Hive 在实时随机读写场景下的分工。整体而言，文章旨在为初次接触 HBase 的开发者建立一个清晰的技术画像，帮助理解它在什么样的大数据架构中扮演“随机实时读写”这一关键角色。