量子数科院 -- IT技术博客大学习 -- 共学习共进步！

• 常用统计图说明

初学sas，用sas的作图功能分析数据时，虽然分析出了一定的结果，但主管说数据图形的表达方式有问题，希望改变一下数据图形，于是今天利用工作时间详细学习了一下sas中的图形表达种类。这里只是将原理写出来，希望以后在数据分析过程中能够将每个图形都利用起来，能够更好表达分析结果。

• Erlang linkin driver用port_control方式时的一些经验分享

最近由于需要Erlang与C交互，采用了linkin driver的方式。利用port_control以及driver_entry中的control回调，调用C函数。在传递复杂的数据结构，序列化和反序列化数据时遇到了一些问题，与大家分享一下。先简单介绍一下eralng driver。首先，Erlang与外部程序交互的方式主要有两种： Port方式，Erlang利用标准输入和输出与外部的程序进行交互。此种方式下，外部程序作为一个外部的进程运行。内联驱动（linkin driver）方式，Erl...

• HIVE中UDTF编写和使用

1. UDTF介绍 UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initialize, process, close三个方法 UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。初始化完成后，会调用process方法，对传入的参数进行处理，可以通过forword()方法把结果返回。最后...

• Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理

String line=value.toString();之所以会把GBK编码的输入变成乱码，很关键的一个因素是Text这个Writable类型造成的。初学时，一直认为和LongWritable对long的封装一样，Text类型是String的Writable封装。但其实Text和String还是有些区别，它是一种UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，会默认其中的字符都是UTF-8编码过的，因而原本GBK编码的数据使用Text读入后直接使用...

• 使用gcov完成代码覆盖率的测试

Gcov作为gnu/gcc工作组件之一，是一款的免费的代码覆盖率测试工具，而且可以结合lcov生成美观的html的测试报表。本文介绍一些gcov的使用方法，基本原理，一些实际中可能会遇到的问题以及解决思路。

• Hadoop集群间Hadoop方案探讨

在日常的工作过程中，我们经常会碰到在不同的Hadoop集群间来回copy数据的需求。这些不同的集群，他们的Hadoop版本可能不同，不同机房的acl也可能不通，给我们的distcp带来了很多困难。这里整理曾经遇到的各种需求，供各位看官参考： 1.机房影响这里假设有两个Hadoop集群，a和b，版本一致，但位于不同的机房A1和B1（A1的机器变化较少，B1的机器变化更频繁，acl推荐从A1打通到B1），任务计划于机房A1的机器gateway_a上提交。需要做...

• 一种oracle2hdfs的数据推送思路

近期准备迁移一台旧机器上的应用，发现以前搞的一个从oracle数据库推送数据到hadoop hdfs里的程序，share思路给大家。基本的思路流程如下：按rowid切分oracle table

• Hadoop超级安装手册

安装Hadoop并不困难，官方文档也给的还算详细。最近同事练习安装还是会遇到一些问题，最后我们整理出来傻瓜版安装手册，帮助你0基础成功。

• Hadoop安装端口已经被占用问题的解决方法

在测试安装hadoop的时候，通常会遇到大家在同一批机器上安装hadoop的情况，这样的话会有端口已经被占用导致安装不成功的情况出现。 Hadoop日志会提示这种错误： ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because java.net.BindException: Address already in use 在这种情况下，最好的方法就是在配置环境时把所有的端口配置都进行修改。在hadoop 0.20版本会涉及到3个配置文件： core-site...

• 几个HIVE的streaming

前段时间在做JIS旺铺装修项目的数据开发，整个过程逻辑非常之纠结，有好几处HIVE代码本身无法满足，因此写了四个python的streaming，在此跟大家分享下，以后有需要用到相似逻辑的同学可以拿去稍微改改直接用。 1）输出某行数据之前所有的数据；本实例输入为按照第三个参数分组的数据集，每组中逐条输出所有数据，直到遇到第四个参数为零时则停止输出： import sys def main(): flag = ” shop_id = R...

• HIVE的CTAS用法探究

最近在使用ADM系统的时候遇到一个问题，ADM在自动将HIVE QL包装成CTAS之后，由于HIVE内部缺省使用’\\N’来存储NULL，这样就会产生一个问题，因为我们处理的很多结果数据是需要导出附件来给下游客户使用的，而导出数据时很少会使用这样一个特殊的字符串来代表NULL值。这种情况下，HIVE为我们提供了重新定义NULL值存储格式的方法，使用serialization.null.format参数。一、CTAS功能探究对于已经创建成功的hive表，如果希望修改NU...