Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理

量子数科院 2011-06-02 13:33:32 累计浏览 5,646 次

本机暂存

标签 Hadoop MapReduce UTF-8

内容概览

写Hadoop作业时，如果遇到输入数据是GBK编码会怎样？MapReduce默认按UTF-8来读取，这时你可能会面对一堆乱码，或是直接看到程序抛出字符集相关的异常。作者从这个常见的实战坑点出发，解释了问题的根源：InputFormat在读取文本时使用的编码方案与实际数据不符。

文章并没有停留在问题描述上，而是直接给出了具体的解决方案。核心思路是在作业配置中明确指定字符集，或者通过自定义一个能识别GBK的输入格式来正确解析数据流。作者特别提到了从经验丰富的同事那里学来的一行配置代码，这种从实践中快速定位并解决问题的“一行代码”方案，往往比教科书式的步骤更直接有效。

对于需要在Hadoop生态中处理历史数据、日志文件或其他来源的非UTF-8数据集的开发者来说，文章提供了明确的排查路径和验证过的解决方法，帮助避免在数据源编码上栽跟头。

从刚毕业开始接触Hadoop写map/reduce作业开始，就遇到了输入数据是GBK编码的问题，找了身边的牛人搞到了一句代码解决。

String line=new String(value.getBytes(),0,value.getLength(),”GBK”); //这里的value是Text类型。

然后一直在用，却也没有想过其中的原由。最近埋下头来学习Hadoop的基础知识，又联想到了这里。

其实，String line=value.toString();之所以会把GBK编码的输入变成乱码，很关键的一个因素是Text这个Writable类型造成的。初学时，一直认为和LongWritable对long的封装一样，Text类型是String的Writable封装。但其实Text和String还是有些区别，它是一种UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，会默认其中的字符都是UTF-8编码过的，因而原本GBK编码的数据使用Text读入后直接使用该方法就会变成乱码。

正确的方法是将输入的Text类型的value转换为字节数组，使用String的构造器String(byte[] bytes, int offset, int length, Charset charset)，通过使用指定的charset解码指定的byte子数组，构造一个新的String。即 String line=new String(value.getBytes(),0,value.getLength(),”GBK”);

Text的UTF-8特性也可以从TextOutputFormat中看出一二，在TextOutputFormat的源码中，

private static final String utf8 = “UTF-8″;//这里被写死成了utf-8

所以如果需要map/reduce输出其它编码格式的数据，需要自己实现OutputFormat，在其中指定编码方式，而不能使用默认的TextOutputFormat。具体的范例可以见淘宝数据平台与产品部官方博客上的博文 http://www.tbdata.org/archives/244 。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

HFile存储格式（累计阅读 15,974）
Zookeeper工作原理（累计阅读 12,201）
Facebook的实时Hadoop系统（累计阅读 11,491）
HBase技术介绍（累计阅读 8,075）
字符编码和中文乱码小叙（累计阅读 7,119）
比较完美地解决了 vim 编辑中文的问题（累计阅读 6,822）
获取指定(访客)IP的所有信息，地址、邮政编码、国家、经纬度等的API （累计阅读 6,459）
中文编码杂谈（累计阅读 6,372）
hadoop rpc机制 && 将avro引入hadoop rpc机制初探（累计阅读 6,218）
HIVE中UDTF编写和使用（累计阅读 6,001）