通过eclipse调试MapReduce任务

淘宝网通用产品团队博客 2012-06-05 22:22:23 累计浏览 4,008 次

本机暂存

内容概览

MapReduce开发者常遇到一个问题：在本地用IDE写好的Mapper和Reducer，提交到集群后行为与预期不符，调试起来却无从下手。这篇讲的正是如何用Eclipse作为调试器，来透视MapReduce作业的执行过程。

作者从实际开发痛点出发，详细演示了在Eclipse中配置和启动MapReduce本地调试任务的步骤。核心在于利用Hadoop的LocalJobRunner，将MR作业运行在本地JVM中，从而可以直接用IDE的调试功能。文章涵盖了关键设置点，比如如何配置Map和Reduce的入口类与参数，如何在Mapper和Reducer的逻辑中设置断点，并观察变量状态。通过这种方式，开发者可以像调试普通Java程序一样，单步跟踪数据从InputSplit被读取、经过Map函数处理、到分区、排序，最终由Reduce函数聚合的全过程。

这种调试方法将原本“黑盒”的分布式任务执行过程，变成了透明、可逐步跟踪的流程，极大地方便了对业务逻辑正确性的验证和性能瓶颈的初步定位，是从代码逻辑通向任务执行现场的一座桥梁。

利用MapReduce利器作开发，不论从思想上还是技能上都是新的体验。以下罗列下如何利用eclipse调试MR任务。

(本人环境：hadoop 1.0.2，部署在linux上，本地windows开发)

1、安装hadoop。

先在linux上安装好hadoop，为更接近线上环进，我的是安装成Cluster

注意要远程访问相关端口，conf/mapred-site.xml中localhost:9001中需要换成ip加端口。

sh bin/start-all.sh启动，先按文档命令行跑一下example的wordcount。

我安装好运行example遇到了XML解析的错(原因应该是${java.home}/lib/jaxp.properties没有设置，见:javax.xml.xpath.XPathFactory.newInstance(uri)的注释)，后来手动加了xalan-j_2.7.0.jar、xercesImpl-2.7.1.jar、xml-apis-2.7.1.jar、xmlenc-0.52.jar、serializer-2.7.1.jar几个包解决。

2、下载hadoop eclipse plugin (最新只有0.20.3，不过也能使用)，将jar放到eclipse/plugins下，启动eclipse

这个插件比较简陋，只有一个设置项:Window->Preferences->Hadoop Map/Reduce，设置Hadoop的安装路径，解压一份跟运行hadoop同版本的到本机并指向就行了(我的使用smb映射)

建ecplise工程，把WordCount的示例代码复制一份吧，有些hadoop相关的jar需要引用。

Run As->Run On Hadoop设置Map/Reduce Master的IP，端口为9000, DFS Master端口为9001

这样，不出意外的话就能在eclipse里运行Map/Reduce程序了。

3、打开debug。

因为Map/Reduce程序会被打成一个jar并拷到TaskTracker机器上(单独的进程)并开一个Child进程来跑JVM的，配置加到bin/下的脚本都是针对hadoop本身的进程，正确的配置如下：

在conf/mapred-site.xml中添加以下配置项：

        <property>
                <name>mapred.child.java.opts</name>
                <!-<value>-Xmx200m -Xdebug -Xrunjdwp:transport=dt_socket,address=7788,server=y,suspend=y</value>->
                <value>-Xmx200m</value>
        </property>

        <property>
                <name>mapred.tasktracker.map.tasks.maximum</name>
                <value>1</value>
                <description>tasktracker的map任务上限</description>
        </property>

        <property>
                <name>mapred.tasktracker.reduce.tasks.maximum</name>
                <value>1</value>
                <description>tasktracker的reduce任务上限</description>
        </property>

        <property>
                <name>mapred.task.timeout</name>
                <value>100000000</value>
        </property>

其中的mapred.child.java.opts会在启动Child进程时设为启动参数。suspend=y取y/n分别表示是否挂起进程等待debug连进来。当然，这个选项还可以方便加其它JVM参数。

重启hadoop，这样运行示例，便可以看到7788端口被监听了。以下几条命令可能会用到：

./bin/stop-all.sh
sleep 1s
./bin/start-all.sh
sleep 1s
./bin/hadoop dfsadmin -safemode leave
#杀掉hadoop进程或某些异常情况下hadoop会安全模式中不退出，HDFS的文件是不能被修改的(运行示例会无任何输出，但从日志中可以看到异常)这个命令强制退出。
./bin/hadoop dfs -rmr /user/dafu/out.txt
echo done

以上只在linux的命令行运行有效。eclipse插件其实是自己作为JobClient在运行，从eclipse中运行时会自己生成一个hadoop-site.xml文件(新版hadoop拆分为3个了，不过不影响执行)，而且，在插件GUI设置界面，居然找不到mapred.child.java.opts等配置项，手工打开：workspace/.metadata\.plugins\org.apache.hadoop.eclipse，可以看到这里存放了插件帮我们打好的jar，在hadoop-conf-132297972833171678里可以找到执行的配置。打开目发locations里边的xml文件（hadoop-site.xml的模板文件），搜索mapred.child.java.opts并修改为前面设置的值。

接下来先 Run As->Run On Hadoop，再用eclipse远程连7788端口进行debug即可。

注：多个TaskTracker，可以断多台，应该是一样。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

android 开发入门（累计阅读 19,527）
HFile存储格式（累计阅读 15,970）
Zookeeper工作原理（累计阅读 12,195）
Facebook的实时Hadoop系统（累计阅读 11,488）
HBase技术介绍（累计阅读 8,071）
Java程序员应该知道的10个eclipse调试技巧（累计阅读 8,011）
Eclipse开发Android应用程序入门:重装上阵（累计阅读 6,459）
hadoop rpc机制 && 将avro引入hadoop rpc机制初探（累计阅读 6,214）
HIVE中UDTF编写和使用（累计阅读 5,998）
AWS云平台系列介绍（一）：AWS平台与EC2介绍（累计阅读 5,995）