标签：HIVE

共 24 篇相关文章

IT 累计浏览 2,316

Hive 随谈（三）

很多人初见Hive时，容易被它的HQL查询语言迷惑，以为它就是另一个数据库。但这篇随谈指出，除了表面上的SQL语法相似，Hive与传统数据库在结构和设计目标上几乎没有共同之处。文章从多个维度剖析了两者的根本差异。核心在于，数据库是为在线事务处理（OLTP）而生的，强调低延迟、高并发的实时读写，支撑着各类业务应用。而Hive诞生于大数据生态，其本质是构建在Hadoop之上的数据仓库工具，专为海量数据的离线分析（OLAP）而设计。它牺牲了实时性，换来了对PB级数据的批处理能力和高吞吐的查询性能。作者强调，认清这一点至关重要。这意味着我们不能将Hive直接用于需要即时响应的线上业务。理解它“为数据仓库而生”的基因，才能合理运用其特性，在合适的数据分析场景中发挥其分布式计算的优势，避免用错地方。

IT 累计浏览 3,484

Hive 随谈（二）

这篇讲的是 Hive 系列文章的第二篇，标题“随谈”暗示了风格较为轻松，是作者基于实践经验的分享。从开头“结构如图所示”来看，文章很可能从 Hive 的整体架构或核心组件入手，逐步展开讨论。作为系列文章，它承接了第一篇可能打下的基础，深入探讨了 Hive 在实际使用中的某个具体方面，或许是对架构中某个关键模块的剖析，或是对特定工作流下设计选择的辨析。虽然信息有限，但能感觉到作者意在分享一些教科书上不太会细说、但在实际工作中很有分量的见解。对于正在使用或打算深入 Hive 的读者来说，这种源自实践的“随谈”往往能提供更贴近生产环境的视角和经验参考。

IT 累计浏览 3,534

Hive 随谈（一）

这篇讲的是作者对 Apache Hive 的深入观察与思考。文章从“Hive 到底是什么”这个最基础的问题切入，但绝不是简单的概念复述。作者似乎有意梳理那些常见的理解误区，引导读者从“SQL-on-Hadoop工具”的固有认知，走向对 Hive 在数据仓库体系中真实角色与核心价值的重新审视。内容很可能触及 Hive 的架构设计哲学，以及它在面对批处理、交互式查询等不同场景时的实际表现与边界。整篇文章像是一位经验丰富的架构师在分享自己的实践心得，帮助读者构建更清晰的技术图景。

IT 累计浏览 4,018

写好Hive 程序的五个提示

这篇讲的是如何让 Hive 程序跑得更快更稳。作者从实际场景出发，提到即使 Hive 能大幅简化 MapReduce 的编写，但如果对数据特性不熟、或者忽略了 Hive 的优化约定，查询就可能变得非常低效，甚至根本拿不到结果。文章的核心价值在于分享了五个实用的编写提示。它强调，一个“好”的 Hive 程序并非仅仅能运行，而是需要对 Hive 底层的运行机制有深入理解。作者给出的建议很可能涵盖了如合理使用分区与分桶、避免数据倾斜、编写高效的 UDF、理解执行计划等关键优化点，这些都是从无数次实践坑里总结出的经验。读完后你会发现，提升 Hive 任务性能的关键，往往就藏在对这些细节规则的遵循与对底层原理的把握之中。