IT技术博客大学习 共学习 共进步

hadoop使用过程中的一些小技巧

淘宝数据平台团队 2010-04-15 09:50:58 浏览 1,861 次

    1.在Eclipse下的hadoop mapred调试

    对于小数据量的调试,可以再本机下载并安装cywin,之后将cywin的bin目录添加到系统的Path环境变量中,将hadoop的core包添加到classpath中。此时就可以在Eclipse下调试你的mapred程序,这时hadoop是在local模式下运行的,如果把hadoop的源代码关联进来,你还可以在他的内部处理中设置断点。

    2. master重启出问题

    之前使用hadoop过程中遇到过几次由于任务执行过程中,某些slave宕机了,然后重启集群,master起不来,一直处在safe mode。查看原因是他一直在试图恢复大量的中间文件,但是此时这些文件已经不存在了。对于这种情况,可以删去他的redo日志,使集群能够快速的启动,当然,弊端是这些中间文件将被忽略。删除的办法是修改设置中的hadoop.tmp.dir的路径下的dfs/name/current/edits文件。

建议继续学习

  1. Facebook的实时Hadoop系统 (阅读 11,404)
  2. hadoop rpc机制 && 将avro引入hadoop rpc机制初探 (阅读 6,084)
  3. Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理 (阅读 5,546)
  4. 百度是如何使用hadoop的 (阅读 5,004)
  5. Hadoop超级安装手册 (阅读 4,663)
  6. Hadoop集群间Hadoop方案探讨 (阅读 4,444)
  7. 使用hadoop进行大规模数据的全局排序 (阅读 4,425)
  8. Hadoop安装端口已经被占用问题的解决方法 (阅读 3,883)
  9. Hadoop现有测试框架探幽 (阅读 3,804)
  10. 分布式计算平台Hadoop 发展现状乱而稳定的解读 (阅读 3,808)