如何获取hive建表语句

淘宝数据平台团队 2010-10-10 08:37:39 累计浏览 7,185 次

本机暂存

内容概览

这篇讲的是，当我们在用Hive做开发时，一个常见但麻烦的需求：如何拿到一张已经存在的表的建表语句（DDL）。Hive本身很贴心地提供了`SHOW CREATE TABLE`命令，但它输出的是针对Hive的语法，有时我们想要的是更通用、或者格式更干净的SQL版本。

文章针对这个痛点，提供了一个清晰可行的解决方案。作者没有停留在介绍基础命令，而是深入了一步，讲解了如何利用Hive元数据中的字段类型映射、注释等详细信息，通过一个自定义的脚本（通常是结合Hive的`DESCRIBE FORMATTED`和`DESCRIBE EXTENDED`命令）来自动化地生成更规范、可移植的`CREATE TABLE`语句。这个过程涉及到了对Hive内部表属性的解析与重组。

对于需要频繁进行表结构迁移、备份或者文档整理的开发者和数据工程师来说，这篇内容提供了一个非常实用的小技巧。它把一个原本需要手动复制粘贴、容易出错的操作，变成了一个可靠的自动化流程，能有效提升日常工作效率。

使用hive进行开发时，我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。

要想还原建表DDL就必须从元数据入手，我们知道，hive的元数据并不存放在hdfs上，而是存放在传统的RDBMS中，典型的如mysql，derby等，这里我们以mysql为元数据库，结合0.4.2版本的hive为例进行研究。

连接上mysql后可以看到hive元数据对应的表约有20个，其中和表结构信息有关的有9张，其余的10多张或为空，或只有简单的几条记录，以下是部分主要表的简要说明。

表名	说明	关联键
TBLS	所有hive表的基本信息	TBL_ID,SD_ID
TABLE_PARAM	表级属性，如是否外部表，表注释等	TBL_ID
COLUMNS	Hive表字段信息(字段注释，字段名，字段类型，字段序号)	SD_ID
SDS	所有hive表、表分区所对应的hdfs数据目录和数据格式	SD_ID,SERDE_ID
SERDE_PARAM	序列化反序列化信息，如行分隔符、列分隔符、NULL的表示字符等	SERDE_ID
PARTITIONS	Hive表分区信息	PART_ID,SD_ID,TBL_ID
PARTITION_KEYS	Hive分区表分区键	TBL_ID
PARTITION_KEY_VALS	Hive表分区名(键值)	PART_ID

除了上面几张表外，还有两张表非常有趣:NUCLEUS_TABLES和SEQUENCE_TABLE

NUCLEUS_TABLES表中保存了元数据表和hive中class类的对应关系，如’org.apache.hadoop.hive.metastore.model.MTable’, ‘`TBLS`’，说明MTable类对应了元数据的TBLS表，不难想象当我们创建一张表时，hive一定会通过MTable的DAO模式向TBLS插入一条数据用来描述刚刚创建的hive表。NUCLEUS_TABLES表内现在共有17条这样的记录。
SEQUENCE_TABLE表保存了hive对象的下一个可用ID，如’org.apache.hadoop.hive.metastore.model.MTable’, 271786，则下一个新创建的hive表其TBL_ID就是271786，同时SEQUENCE_TABLE表中271786被更新为271791(这里每次都是+5而不是预料中的+1，有些奇怪)。同样，COLUMN，PARTITION等都有相应的记录。

从上面两张表的内容来看，hive表创建表的过程已经比较清楚了

解析用户提交hive语句，对其进行解析，分解为表、字段、分区等hive对象
根据解析到的信息构建对应的表、字段、分区等对象，从SEQUENCE_TABLE中获取构建对象的最新ID，与构建对象信息(名称，类型等)一同通过DAO方法写入到元数据表中去，成功后将SEQUENCE_TABLE中对应的最新ID+5。

实际上我们常见的RDBMS都是通过这种方法进行组织的，典型的如postgresql，其系统表中和hive元数据一样裸露了这些id信息(oid,cid等),而Oracle等商业化的系统则隐藏了这些具体的ID。

有了上面的信息，再想获得hive的建表语句已经是易如反掌了，这里提供一个已经开发好的脚本，使用shell开发，大家可以自由修改。注意:其中mysql连接信息请根据实际环境进行配置。

点击下载

使用方法如下:

hivesql sql <table|file> ― 获取指定hive表或指定文件中所有hive表的DDL，如果有按天的分区则默认执行最近7天的分区DDL。同时，table支持符合sql语法的正则表达式，如果有多个表匹配，则提示用户选择(使用file则自动关闭该交互功能)。
hivesql synctab <table|file> ― 基本同上，但是会将得到的DDL提交到当前的hive环境，可用来在不同的hive环境中复制表结构。

如果需要多天分区DDL还可以这样用(前提是分区中含有日期信息，如pt=20100720):

hivesql sql s_table 20100702 ― 除建表语句外，获得自20100702以来的分区DDL
hivesql sql s_table 20100702 20100725 ― ………………………..自20100702-20100725的分区DDL
hivesql sql s_table 20100702 10 ― ………………………..自20100702起10天的分区DDL

hivesql synctab和hivesql sql一样支持上述日期限定功能。

此外，还提供了两个附加的功能(也很有用呃)

hivesql loc <reg> ― 根据关键字查找能够匹配到的hive表或对应的数据路径
hivesql hdfswc <hdfsdir> ― 获取指定数据目录下所有数据的总行数，支持普通文本，TextFile和SequenceFile的压缩格式，类似于linux下的wc -l

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,253）
MySQL数据库在实际应用一些方面的介绍（累计阅读 36,401）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,164）
Mysql监控指南（累计阅读 21,352）
由浅入深探究mysql索引结构原理、性能分析与优化（累计阅读 16,523）
在Apache2.2.XX下安装Mod-myvhost模块（累计阅读 13,058）
15个最好的免费开源电子商务平台（累计阅读 12,541）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,909）
整理了一份招PHP高级工程师的面试题（累计阅读 11,709）
深入浅出INNODB MVCC机制与原理（累计阅读 9,693）