标签：Data warehouse

共 5 篇相关文章

IT 累计浏览 3,343

Infobright 数据仓库

这篇讲的是作者在实际工作中初次接触 Infobright 列式存储数据库后的一些学习感悟。作者从实践中感受到，Infobright 与传统关系型数据库（如 MySQL）在设计和适用场景上有显著区别。它的核心亮点在于采用了列式存储引擎和独特的数据压缩机制，特别适合对海量数据进行分析型查询的场景。文章提到，与行式存储的 MySQL 相比，Infobright 在处理宽表和大数据量时展现出高性能。它通过“数据包”组织列数据，并利用高级别数据压缩（压缩比可达40:1），极大地减少了存储空间和 I/O 开销。查询时无需建立索引，而是通过元数据和数据直方图快速定位，这使得它对大规模数据扫描和聚合计算非常友好。不过，这种优势也伴随着取舍。Infobright 针对的是数据仓库中常见的只读或低更新场景，对于频繁的事务性写入和更新操作并不擅长。作者通过初步探索，感受到了它在特定场景下的强大，读完后对这种专注于特定场景的数据库设计思路有了更直观的认识。

IT 累计浏览 7,181

如何获取hive建表语句

这篇讲的是，当我们在用Hive做开发时，一个常见但麻烦的需求：如何拿到一张已经存在的表的建表语句（DDL）。Hive本身很贴心地提供了`SHOW CREATE TABLE`命令，但它输出的是针对Hive的语法，有时我们想要的是更通用、或者格式更干净的SQL版本。文章针对这个痛点，提供了一个清晰可行的解决方案。作者没有停留在介绍基础命令，而是深入了一步，讲解了如何利用Hive元数据中的字段类型映射、注释等详细信息，通过一个自定义的脚本（通常是结合Hive的`DESCRIBE FORMATTED`和`DESCRIBE EXTENDED`命令）来自动化地生成更规范、可移植的`CREATE TABLE`语句。这个过程涉及到了对Hive内部表属性的解析与重组。对于需要频繁进行表结构迁移、备份或者文档整理的开发者和数据工程师来说，这篇内容提供了一个非常实用的小技巧。它把一个原本需要手动复制粘贴、容易出错的操作，变成了一个可靠的自动化流程，能有效提升日常工作效率。

IT 累计浏览 2,314

Hive 随谈（三）

很多人初见Hive时，容易被它的HQL查询语言迷惑，以为它就是另一个数据库。但这篇随谈指出，除了表面上的SQL语法相似，Hive与传统数据库在结构和设计目标上几乎没有共同之处。文章从多个维度剖析了两者的根本差异。核心在于，数据库是为在线事务处理（OLTP）而生的，强调低延迟、高并发的实时读写，支撑着各类业务应用。而Hive诞生于大数据生态，其本质是构建在Hadoop之上的数据仓库工具，专为海量数据的离线分析（OLAP）而设计。它牺牲了实时性，换来了对PB级数据的批处理能力和高吞吐的查询性能。作者强调，认清这一点至关重要。这意味着我们不能将Hive直接用于需要即时响应的线上业务。理解它“为数据仓库而生”的基因，才能合理运用其特性，在合适的数据分析场景中发挥其分布式计算的优势，避免用错地方。

IT 累计浏览 3,532

Hive 随谈（一）

这篇讲的是作者对 Apache Hive 的深入观察与思考。文章从“Hive 到底是什么”这个最基础的问题切入，但绝不是简单的概念复述。作者似乎有意梳理那些常见的理解误区，引导读者从“SQL-on-Hadoop工具”的固有认知，走向对 Hive 在数据仓库体系中真实角色与核心价值的重新审视。内容很可能触及 Hive 的架构设计哲学，以及它在面对批处理、交互式查询等不同场景时的实际表现与边界。整篇文章像是一位经验丰富的架构师在分享自己的实践心得，帮助读者构建更清晰的技术图景。

IT 累计浏览 3,796

Infobright的架构

这篇讲的是Infobright如何作为一款列式存储引擎，与MySQL无缝集成，以应对海量数据的分析型查询挑战。文章首先指出了核心背景：传统行存数据库在面对复杂报表和聚合分析时，往往因I/O瓶颈而性能骤降。而Infobright的架构正是为解决这一问题而生。它本身不是一个独立的数据库，而是作为MySQL的一个存储引擎存在，这意味着用户可以在熟悉的MySQL生态中，享受到列存技术带来的分析加速。其核心方案体现在几个关键架构设计上：数据按列组织和压缩，大幅减少了分析查询时需要读取的数据量；独特的“知识网格”技术用于元数据管理，能快速过滤无关数据块；并行处理能力则进一步提升了查询效率。这些设计共同使得它在处理大宽表和复杂查询时，性能可以比传统行存引擎高出数十倍甚至更多。文章展示了其作为分析型引擎的定位和核心架构思想，但在具体的实现细节，例如知识网格的运作机制或压缩算法的取舍上，并未深入展开。这为读者勾勒出了一个清晰的技术蓝图，至于蓝图中的精密部件，则留待更感兴趣的读者去探索其源码或官方文档了。