使用HBase EndPoint（coprocessor）进行计算

搜索技术博客－淘宝 2014-11-27 12:58:20 累计浏览 1,610 次

本机暂存

内容概览

当面对千万、亿级数据量时，对HBase表进行全表扫描来统计行数或分组聚合，会带来巨大的网络与RPC开销。这篇技术分享给出了一个优雅的解法：使用HBase的Endpoint协处理器。

作者的核心思路是，将计算逻辑直接部署到数据所在的RegionServer上执行，只将聚合后的结果返回客户端。这就好比把计算任务“下发”到每个数据分区，避免了海量原始数据的网络传输。文章将这个过程比作一个精简高效的、运行在RegionServer上的MapReduce。

具体实现分为三步：首先定义一个继承自CoprocessorProtocol的计数接口；然后在服务端实现该接口，在Region内完成数据扫描与计数；最后在客户端通过HBase API发起远程调用，并汇总各个Region的统计结果。文章不仅给出了清晰的代码示例，还详细说明了如何通过配置文件或Shell命令来部署这个协处理器。

通过行数统计这个简单例子，文章展示了Endpoint协处理器如何为HBase添加灵活的计算能力，使其成为高效应对大规模数据聚合挑战的利器。

如果要统对hbase中的数据，进行某种统计，比如统计某个字段最大值，统计满足某种条件的记录数，统计各种记录特点，并按照记录特点分类（类似于sql的group by）~

常规的做法就是把hbase中整个表的数据scan出来，或者稍微环保一点，加一个filter，进行一些初步的过滤（对于rowcounter来说，就加了FirstKeyOnlyFilter），但是这么做来说还是会有很大的副作用，比如占用大量的网络带宽（当标级别到达千万级别，亿级别之后）尤为明显，RPC的量也是不容小觑的。

理想的方式应该是怎样？

拿row counter这个简单例子来说，我要统计总行数，如果每个region 告诉我他又多少行，然后把结果告诉我，我再将他们的结果汇总一下，不就行了么？
现在的问题是hbase没有提供这种接口，来统计每个region的行数，那是否我们可以自己来实现一个呢？
没错，正如本文标题所说，我们可以自己来实现一个Endpoint，然后让hbase加载起来，然后我们远程调用即可。

什么是Endpoint？

先弄清楚什么是hbase coprocessor

hbase有两种coprocessor，一种是Observer（观察者），类似于关系数据库的trigger（触发器），另外一种就是EndPoint，类似于关系数据库的存储过程。

观察者这里就多做介绍了，这里介绍Endpoint。

EndPoint是动态RPC插件的接口，它的实现代码被部署在服务器端（regionServer），从而能够通过HBase RPC调用。客户端类库提供了非常方便的方法来调用这些动态接口，它们可以在任意时候调用一个EndPoint，它们的实现代码会被目标region远程执行，结果会返回到终端。用户可以结合使用这些强大的插件接口，为HBase添加全新的特性。

怎么实现一个EndPoint

1. 定义一个新的protocol接口，必须继承CoprocessorProtocol.
2. 实现终端接口，继承抽象类BaseEndpointCoprocessor，改实现代码需要部署到
3. 在客户端，终端可以被两个新的HBase Client API调用。单个region：HTableInterface.coprocessorProxy(Class<T> protocol, byte[] row) 。rigons区域：HTableInterface.coprocessorExec(Class<T> protocol, byte[] startKey, byte[] endKey, Batch.Call<T,R> callable)，这里的region是通过一个row来标示的，就是说，改row落到那个region，RPC就发给哪个region，对于start-end的，[start,end)范围内的region都会受到RPC调用。

如图

publicinterfaceCounterProtocol extendsCoprocessorProtocol {
    publiclongcount(byte[] start, byte[] end) throwsIOException;
}

publicclassCounterEndPoint extendsBaseEndpointCoprocessor implementsCounterProtocol {
 
    @Override
    publiclongcount(byte[] start, byte[]end) throwsIOException {
        // aggregate at each region
        Scan scan = newScan();
        longnumRow = 0;
 
        InternalScanner scanner = ((RegionCoprocessorEnvironment) getEnvironment()).getRegion()
                .getScanner(scan);
        try{
            List<KeyValue> curVals = newArrayList<KeyValue>();
            booleanhasMore = false;
            do{
                curVals.clear();
                hasMore = scanner.next(curVals);
                if(Bytes.compareTo(curVals.get(0).getRow(), start)<0) {
                    continue;
                }
                if(Bytes.compareTo(curVals.get(0).getRow(), end)>= 0) {
                    break;
                }
                numRow++;
            } while(hasMore);
        } finally{
            scanner.close();
        }
        returnnumRow;
    }
 
}

publicclassCounterEndPointDemo {
    publicstaticvoidmain(String[] args) throwsIOException, Throwable {
        finalString startRow = args[0];
        finalString endRow = args[1];
 
        @SuppressWarnings("resource")
        HTableInterface table = newHTable(HBaseConfiguration.create(), "tc");
        Map<byte[], Long> results;
 
        // scan: for all regions
        results = table.coprocessorExec(CounterProtocol.class, startRow.getBytes(),
                endRow.getBytes(), newBatch.Call<CounterProtocol, Long>() {
                    publicLong call(CounterProtocol instance) throwsIOException {
                        returninstance.count(startRow.getBytes(), endRow.getBytes());
                    }
                });
 
        longtotal = 0;
        for(Map.Entry<byte[], Long> e : results.entrySet()) {
            System.out.println(e.getValue());
            total += e.getValue();
        }
 
        System.out.println("total:"+ total);
    }
}

整个程序的框架其实又是另外一个mapreduce，只是运行在region server上面，reduce运行在客户端，其中map计算量较大，reduce计算量很小！

另外需要提醒的是：
protocol的返回类型，可以是基本类型。
如果是一个自定义的类型需要实现org.apache.hadoop.io.Writable接口。
关于详细的支持类型，请参考代码hbase源码：org.apache.hadoop.hbase.io.HbaseObjectWritable

怎么部署？

1. 通过hbase-site.xml增加

<property>
  <name>hbase.coprocessor.region.classes</name>
  <value>xxxx.CounterEndPoint </value>
</property>

如果要配置多个，就用逗号（,)分割。
包含此类的jar必须位于hbase的classpath
这种coprocessor是作用于所有的表，如果你只想作用于部分表，请使用下面一种方式。

2. 通过shell方式
增加：

hbase(main):005:0> alter 't1', METHOD => 'table_att',
'coprocessor'=>'hdfs:///foo.jar|com.foo.FooRegionObserver|1001|arg1=1,arg2=2'
Updating all regions with the new schema...
1/1regions updated.
Done.
0 row(s) in1.0730 seconds

coprocessor格式为：
[FilePath]|ClassName|Priority|arguments
arguments: k=v[,k=v]+