专题：Hive -- IT技术博客大学习 -- 共学习共进步！

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成)，可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。其架构如图 1所示，Impala主要由Impalad， State Store和CLI组成。

HIVE中MAPJOIN可以使用的场景分析

最近开发中遇到几种应用，刚好使用MAPJOIN来解决实际的问题。应用共同点如下： 1: 有一个极小的表<1000行 2: 需要做不等值join操作（a.x < b.y 或者 a.x like b.y等）这种操作如果直接使用join的话语法不支持不等于操作，hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积，数据异常增大，速度会很慢。甚至会任务无法跑成功~ 根据mapjoin的计算原理，MAPJION会把小表全部读入内存中，在map阶段...

hadoop hive安装手记

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

用hadoop hive协同scribe log用户行为分析方案

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。

HIVE中UDTF编写和使用

1. UDTF介绍 UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initialize, process, close三个方法 UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。初始化完成后，会调用process方法，对传入的参数进行处理，可以通过forword()方法把结果返回。最后...

几个HIVE的streaming

前段时间在做JIS旺铺装修项目的数据开发，整个过程逻辑非常之纠结，有好几处HIVE代码本身无法满足，因此写了四个python的streaming，在此跟大家分享下，以后有需要用到相似逻辑的同学可以拿去稍微改改直接用。 1）输出某行数据之前所有的数据；本实例输入为按照第三个参数分组的数据集，每组中逐条输出所有数据，直到遇到第四个参数为零时则停止输出： import sys def main(): flag = ” shop_id = R...

Hive-如何基于分区优化

Hive优化

Hive源码解析-之-语法解析器

hive 源码解析

HIVE的CTAS用法探究

最近在使用ADM系统的时候遇到一个问题，ADM在自动将HIVE QL包装成CTAS之后，由于HIVE内部缺省使用’\\N’来存储NULL，这样就会产生一个问题，因为我们处理的很多结果数据是需要导出附件来给下游客户使用的，而导出数据时很少会使用这样一个特殊的字符串来代表NULL值。这种情况下，HIVE为我们提供了重新定义NULL值存储格式的方法，使用serialization.null.format参数。一、CTAS功能探究对于已经创建成功的hive表，如果希望修改NU...

Hive源码解析-之-词法分析器 parser

Hive源码解析系列

Hive的入口 -- Hive源码解析

读hive源码希望能够更了解底层，尤其是hive与Hadoop切换这块。

如何获取hive建表语句

在使用hive进行开发时，我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手，我们知道，hive的元数据并不存放在hdfs上，而是存放在传统的RDBMS中，典型的如mysql，derby等，这里我们以mysql为元数据库，结合0.4.2版本的hive为例进行研究。连接上mysql后可以看到hive元数据对应的表约有20个，其中和表结构信息有关的有9张，其余的10多张或为空，或只有简单...

Hive 随谈（六）

Hive 是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么语言，利用 stdin/stdout 传输数据用户自定义函数: Substr, Trim, 1

Hive 随谈（五）

Hive 针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。列裁剪（Column Pruning）在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询： SELECT a,b FROM T WHERE e < 10; 其中，T 包含 5 个列 (a,b,c,d,e)，列 c，d 将会被忽略，只会读取a, b, e 列这个选项默认为真： hive.optimize.cp = true 分区裁剪（Partition Pruning）在查询的过程中...

Hive 随谈（四）

Hive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。

Hive 随谈（三）

摘要：由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但是 Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。 Hive 和数据库的比较查询语言 HQL SQL 数据存储位置 HDFS Raw Device 或者 Local FS 数...

Hive 随谈（二）

本文介绍了 Hive 的体系结构，元数据管理方式以及数据的管理方式

Hive 随谈（一）

Hive 是什么在接触一个新的事物首先要回到的问题是：这是什么？这里引用 Hive wiki 上的介绍： Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large data sets stored in Hadoop files. Hive defines a simple SQL-like query language, called [...]

写好Hive 程序的五个提示

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下，因为不熟悉数据特性，或没有遵循Hive的优化约定，Hive计算任务会变得非常低效，甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括：Join中需要将大表写在靠右的位置；尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关的问题，帮助你写出更好的Hive程序。全排...