专题：reduce -- IT技术博客大学习 -- 共学习共进步！

IT 浏览 5,540

Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理

String line=value.toString();之所以会把GBK编码的输入变成乱码，很关键的一个因素是Text这个Writable类型造成的。初学时，一直认为和LongWritable对long的封装一样，Text类型是String的Writable封装。但其实Text和String还是有些区别，它是一种UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，会默认其中的字符都是UTF-8编码过的，因而原本GBK编码的数据使用Text读入后直接使用...

标签：reduce

Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理