专题：hadoop -- IT技术博客大学习 -- 共学习共进步！

事无巨细 Hadoop2.6.4 环境搭建步骤详解

本文详细记录了OneCoder通过自己的Mac环境，在开发服务器(CentOS 6.5)上搭建Hadoop的详细过程。因为事无巨细，所以可能会”跑题”。

大规模Hadoop集群在腾讯数据仓库TDW的实践

随着业务的快速增长，TDW的节点数也在增加，对单个大规模Hadoop集群的需求也越来越强烈。TDW需要做单个大规模集群，主要是从数据共享、计算资源共享、减轻运营负担和成本等三个方面考虑。

百度是如何使用hadoop的

百度作为全球最大的中文搜索引擎公司，提供基于搜索引擎的各种产品，几乎覆盖了中文网络世界中所有的搜索需求,因此，百度对海量数据处理的要求是比较高的，要在线下对数据进行分析，还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求要通过性能较好的云平台进行处理了，Hadoop就是很好的选择。

hadoop笔记 (2)：pipes例子分析 (1)

Pipes是hadoop提供的c++接口，但是在官网上找不到pipes的文档，只能从例子开始一点点摸索。实验环境是debian 6 amd64，hadoop 1.0.3。hadoop的安装目录是$HOME/hadoop，安装和配置过程在上一篇安装笔记中有提到。

hadoop笔记 (1)：安装和配置

记录一下hadoop集群的搭建过程，一共3台机器，操作系统都是debian 6，hadoop版本是1.0.3，jre是源里的openjdk-6。hadoop官网的说明挺详细，就是不能快速搭建出一个能跑的环境。在网上找到一篇文章(见参考资料[1])，虽然文章中用的是0.20版本，但是在1.0.3上也适用。这里使用master，slave1和slave2分别作为三台机器的主机名。为了操作方便，每台机器上都有一个用户hadoop，密码都一样。以下的配置操作都在master上进行。

在Hadoop中提升task的启动速度

在增量DUMP过程中，我们的job比较小，但是启动非常频繁，每个job的执行时间短，通过执行的日志发现，有时会出现一个job的启动时间很长，需要几十秒。由于我们很看重增量的速度，所以几十秒的等待是不可接受的。分析：我们当时使用的Hadoop CDH3 Beta4 的版本。通过ganglia图表分析，出问题的tasktracker会出现一些流量的凸起。但是离带宽限制还很远。通过仔细分析TaskTracker的日志发现，Child子进程启动过程中，存在等待的问题。经过分析源码，Child子进程在启动过程是在一个线程中串行完成，启动过程包括了distributedcache文件的获取。

分布式计算平台Hadoop 发展现状乱而稳定的解读

雅虎开发者Doug Cutting六年前创建了一个用于管理，存储和分析大量数据的分布式计算平台hadoop，现在大家也称云计算平台，用他儿子的玩具大象命名，并把它交给阿帕奇软件基金会。鉴于围绕Hadoop建立的整个行业的迅速，这会使某些人觉得非常惊讶，那就是阿帕奇软件基金会最近才推出了Apache Hadoop 1.0——被认为是足够稳定而成为“企业就绪”的第一个版本。

X-RIME: 基于Hadoop的开源大规模社交网络分析工具

随着互联网的快速发展，涌现出了一大批以Facebook，Twitter，人人，微博等为代表的新型社交网站。这些网站用户数量的迅速增长使得海量的用户数据不断被产生出来，而如何有效地对这些海量的用户数据进行社交网络分析（Social Network Analysis）正成为一个越来越热门的问题。本文向大家介绍由IBM中国研究院和北京邮电大学合作开发的X-RIME开源库（http://xrime.sourceforge.net/），一个基于Hadoop的开源社交网络分析工具。其实早...

Hadoop++：Hadoop的局部性能改良

Hadoop++是对Hadoop Map Reduce的非入侵式优化，通过自定义Hadoop框架中的split等函数来提升，提升查询和联接性能。项目由德国Saarland大学Jens Dittrich教授主持。项目主页是 http://infosys.uni-saarland.de/hadoop++.php。Hadoop++对Hadoop的优化主要是Trojan Index、Trojan Join和Trojan Layout三方面。1、Trojan Index Trojan index的核心是将数据组织成依次由数据、索引、Header和Footer这四部分构成的split，其中Foot...

Facebook的实时Hadoop系统

以前我们也曾经讨论过如何在分布式文件系统的基础上搭建一套实时数据分析系统，当时认为如果有成熟的 GFS 可用的话，这个工作会比较简单。现在读到 Facebook 的这篇文章，才发现当初想法的幼稚。从这篇文章中体验出的工作量来看，文中说这个系统是多年持续工作的结晶是令人信服的。当然，这也意味着想复制一套这样的系统并不是件轻松容易的事。

hadoop hive安装手记

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理

String line=value.toString();之所以会把GBK编码的输入变成乱码，很关键的一个因素是Text这个Writable类型造成的。初学时，一直认为和LongWritable对long的封装一样，Text类型是String的Writable封装。但其实Text和String还是有些区别，它是一种UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，会默认其中的字符都是UTF-8编码过的，因而原本GBK编码的数据使用Text读入后直接使用...

Hadoop集群间Hadoop方案探讨

在日常的工作过程中，我们经常会碰到在不同的Hadoop集群间来回copy数据的需求。这些不同的集群，他们的Hadoop版本可能不同，不同机房的acl也可能不通，给我们的distcp带来了很多困难。这里整理曾经遇到的各种需求，供各位看官参考： 1.机房影响这里假设有两个Hadoop集群，a和b，版本一致，但位于不同的机房A1和B1（A1的机器变化较少，B1的机器变化更频繁，acl推荐从A1打通到B1），任务计划于机房A1的机器gateway_a上提交。需要做...

使用hadoop进行大规模数据的全局排序

1. Hellow hadoop~~! Hadoop（某人儿子的一只虚拟大象的名字）是一个复杂到极致，又简单到极致的东西。说它复杂，是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成，你运行的每一个任务都要在这些计算机上做任务的分发，执行中间数据排序以及最后的汇总，期间还包含节点发现，任务的重试，故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成，没事儿罢个工什么的，...

Hadoop超级安装手册

安装Hadoop并不困难，官方文档也给的还算详细。最近同事练习安装还是会遇到一些问题，最后我们整理出来傻瓜版安装手册，帮助你0基础成功。

Hadoop安装端口已经被占用问题的解决方法

在测试安装hadoop的时候，通常会遇到大家在同一批机器上安装hadoop的情况，这样的话会有端口已经被占用导致安装不成功的情况出现。 Hadoop日志会提示这种错误： ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because java.net.BindException: Address already in use 在这种情况下，最好的方法就是在配置环境时把所有的端口配置都进行修改。在hadoop 0.20版本会涉及到3个配置文件： core-site...

hadoop作业调优参数整理及原理

1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存buffer（MapOutputBuffer，即上图的buffer in memory），map会将已经产生的部分结果先写入到该buffer中，这个buff...

hadoop rpc机制 && 将avro引入hadoop rpc机制初探

1 RPC RPC(Remote Procedure Call)――远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。 2 hadoop.ipc 2.1 Server RPC Server实现了一种抽象的RPC服务，同时提供Call队列。 O RPC Server结构结构功能 Server.Listener RPC Server的监听者，用来接收RPC Client的连接请求和数据，其中数据封装成Call后PUSH到Call队列。 Server.Handler RPC Server的Call处理者，和Server.Listener通...

NameNode优化笔记 (一)

集群只要规模上了1000台, 问题就会更多。 RPC, NameNode锁、JobTracker锁、及DataNode, TaskTracker的问题都是一大堆。我们于12月初解决了JobTracker的一些性能问题, 但是NameNode的吞吐量一直没有上来。针对这些问题我们开了几次紧急会议, 会议的决定是由我负责开展一个NameNode优化专门项目。经过大约一个月的努力, 我们的NameNode吞吐量已经上升8+倍。接下来的笔记将连载我们是如何发现NameNode的问题, 并进行NameNode优化的，...

Hadoop Job Tuning

Hadoop平台已经成为了大多数公司的分布式数据处理平台，随着数据规模的越来越大，对集群的压力也越来越大，集群的每个节点负担自然就会加重，而且集群内部的网络带宽有限，数据交换吞吐量也在面临考验，由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发，针对Hadoop Job优化提出了一些观点，不包含HDFS的优化。 Job Tracker Related 严格来说，下面这个配置项，是决定HDFS文件block数量的多少(也就是文件个数...