hadoop hive安装手记

五四陈科学院-坚信科学，分享技术 2011-06-22 00:16:14 累计浏览 3,358 次

本机暂存

内容概览

这篇讲的是Hadoop生态中数据仓库工具Hive的安装与核心优势。作者从实际安装部署出发，但重点落脚在Hive如何改变大数据处理的门槛：它将结构化的数据文件直接映射为数据库表，让你能用熟悉的类SQL语句进行查询，而不用从零编写复杂的MapReduce程序。

文章清晰地指出了Hive的“杀手锏”——极大地降低了学习成本。传统上，对海量数据做统计分析需要开发专门的MapReduce应用，这对许多数据分析师并不友好。而Hive允许用户通过简单的SQL语句，快速将查询转换为后台的MapReduce任务执行，把复杂的数据处理封装起来。这使得它特别适合于数据仓库的日常统计分析场景，让团队能更专注于业务逻辑本身。

简而言之，这是一篇强调实用性的指南，核心是向读者展示如何用更低的门槛，快速搭建起基于Hadoop的分析环境。

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

[网络环境设置]
vim /etc/hosts

192.168.100.52 hadoop1
192.168.99.34 hadoop2
192.168.103.135 hadoop3

分别到对应机器执行：

hostname hadoop1
hostname hadoop2
hostname hadoop3

[打通机器]

hadoop1# ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa
hadoop1# scp ~/.ssh/id_dsa.pub hadoop2:/root/
hadoop1# scp ~/.ssh/id_dsa.pub hadoop3:/root/
hadoop2# cat id_dsa.pub >> ~/.ssh/authorized_keys
hadoop3# cat id_dsa.pub >> ~/.ssh/authorized_keys

验证：从hadoop1登录到hadoop2和hadoop3，不再需要密码。

[安装hadoop]
确保所有机器有 ssh rsync jdk
确保设置了：
export JAVA_HOME=/opt/soft/jdk

hive在0.20.x的hadoop做了大量的测试，因此选择0.20

cd /opt/soft/
wget http://mirror.bjtu.edu.cn/apache/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
tar -zxvf hadoop-0.20.2.tar.gz
cd hadoop-0.20.2/
vim .bashrc
export HADOOP_HOME=/opt/soft/hadoop-0.20.2

（重复以上操作到另外两机器）

[配置hadoop]
vim conf/core-site.xml
修改：

<configuration>
<property>
<!- 用于dfs命令模块中指定默认的文件系统协议 ->
<name>fs.default.name</name>
<value>hdfs://hadoop1:9000</value>
</property>
</configuration>

vim conf/hdfs-site.xml
修改：

<configuration>
<property>
<!- DFS中存储文件命名空间信息的目录 ->
<name>dfs.name.dir</name>
<value>/opt/hadoop/data/dfs.name.dir</value>
</property>
<property>
<!- DFS中存储文件数据的目录 ->
<name>dfs.data.dir</name>
<value>/opt/hadoop/data/dfs.data.dir</value>
</property>
<property>
<!- 是否对DFS中的文件进行权限控制(测试中一般用false)->
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

vim conf/mapred-site.xml
修改：

<configuration>
<property>
<!- 用来作JobTracker的节点的(一般与NameNode保持一致) ->
<name>mapred.job.tracker</name>
<value>hadoop1:9001</value>
</property>
<property>
<!- map/reduce的系统目录（使用的HDFS的路径） ->
<name>mapred.system.dir</name>
<value>/opt/hadoop/system/mapred.system.dir</value>
</property>
<property>
<!- map/reduce的临时目录（可使用“,”隔开，设置多重路径来分摊磁盘IO） ->
<name>mapred.local.dir</name>
<value>/opt/hadoop/data/mapred.local.dir</value>
</property>
</configuration>

vim masters

hadoop1

vim slaves

hadoop2
hadoop3

scp conf/* hadoop2:/opt/soft/hadoop-0.20.2/conf/
scp conf/* hadoop3:/opt/soft/hadoop-0.20.2/conf/

[初始化]

cd $HADOOP_HOME/bin
./hadoop namenode -format

启动
./start-all.sh

[验证]
$HADOOP_HOME/bin/hadoop dfs -ls /
打开 http://192.168.100.52:50030

http://192.168.100.52:50070

[搭建hive集群]
下载
只需要在hadoop1机器上安装

cd /opt/soft/hadoop-0.20.2
wget http://mirror.bjtu.edu.cn/apache/hive/hive-0.7.0/hive-0.7.0.tar.gz
tar zxvf hive-0.7.0.tar.gz
cd hive-0.7.0
vim ~/.bashrc
export HIVE_HOME=/opt/soft/hadoop-0.20.2/hive-0.7.0

$HIVE_HOME/bin/hive
>create table tt(id int,name string) row format delimited fields terminated by ‘,’ collection items terminated by “\n” stored as textfile;
>select * from tt;
>drop table tt;

试玩结束。

[配置hive]
准备mysql:hadoop1 user:hadoop pwd:hadoop

>create database hive
>GRANT all ON hive.* TO hadoop@% IDENTIFIED BY ‘hadoop’;
>FLUSH PRIVILEGES ;

vim $HIVE_HOME/conf/hive-site.xml

<?xml version=”1.0″?>
<?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?>
<configuration>
<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>

<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop1:3306/hive?createDatabaseIfNotExist=true</value>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hadoop</value>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hadoop</value>
</property>
</configuration>

[启动]
复制一个mysql-connector-java-5.1.10.jar到hive/lib下后：

$HIVE_HOME/bin/hive
>create table tt(id int,name string) row format delimited fields terminated by ‘,’ collection items terminated by “\n” stored as textfile;

如果报如下错：

FAILED: Error in metadata: javax.jdo.JDOException: Couldnt obtain a new sequence (unique id) : Binary logging not possible. Message: Transaction level ‘READ-COMMITTED’ in InnoDB is not safe for binlog mode ‘STATEMENT’

退出hive后，以root进入mysql执行：

>set global binlog_format=’MIXED’;

这是mysql的一个bug。

安装结束。

同分类推荐文章

达梦数据库redo异常强制拉库（2026-06-28 13:37:46）
dd破坏包含50多个pdb的asm 磁盘组恢复（2026-06-27 22:00:11）
使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）

查看更多数据库文章 →

建议继续学习

MySQL数据库在实际应用一些方面的介绍（累计阅读 36,404）
HFile存储格式（累计阅读 15,980）
如何查找消耗资源较大的SQL （累计阅读 15,217）
Zookeeper工作原理（累计阅读 12,224）
Facebook的实时Hadoop系统（累计阅读 11,501）
其实，文件也可以truncate （累计阅读 8,577）
MariaDB常见问题FAQ （累计阅读 8,350）
HBase技术介绍（累计阅读 8,079）
SQL vs NoSQL：数据库并发写入性能比拼（累计阅读 8,008）
Mysql的随机读取（累计阅读 7,869）