量子数科院 -- IT技术博客大学习 -- 共学习共进步！

首页 / 量子数科院

IT 2011-06-02 22:44:02 / 累计浏览 1,660

常用统计图说明

这篇讲的是作者在使用SAS作图时，被主管指出数据图形的表达方式存在问题后，进行的一次系统性学习梳理。文章没有直接展示成品图表，而是聚焦于SAS中8种基础统计图形的原理与适用场景。作者从实际工作中遇到的“表达不准确”这一痛点出发，详细拆解了SAS支持的各种图形类型。虽然是一篇知识梳理，但背后指向的是数据分析中一个关键问题：如何选择正确的视觉形式来准确传达数据洞见，而不只是生成一个“能看”的图。文章强调，掌握每种图形的特性，才能在分析结果时做出更有效的表达选择。对于使用SAS或其他统计软件进行数据分析和可视化的读者来说，这份总结相当于一份快速查阅的图形选择指南，能帮助你根据数据类型和表达目的，找到最匹配的图形工具。

本机暂存

IT 2011-06-02 13:35:19 / 累计浏览 3,940

Erlang linkin driver用port_control方式时的一些经验分享

这篇讲的是作者在使用 Erlang Linked-In Driver 进行 Erlang 与 C 语言交互时，聚焦于 `port_control` 调用路径上的实战经验。核心问题是，当需要通过此机制传递复杂的数据结构时，如何高效且正确地完成数据的序列化与反序列化。作者遇到的具体困境是，C 端代码在直接处理 Erlang 的外部术语格式（ETF）时，对复杂结构（如嵌套列表、元组）的构造与解析容易出错且效率不高。根因在于对 Erlang VM 与 C 之间数据传递的底层协议理解不够清晰，导致了序列化策略的偏差。文章的解决思路是，分享了一种更为可靠和清晰的数据封装方法。作者没有选择完全依赖 ETF 进行复杂对象传递，而是在 C 端设计了一套与之匹配的序列化协议，将复杂数据结构“拍平”为更易于 C 语言操作的基础类型（如字节数组、长整型数组），再通过 `port_control` 进行高效传输。Erlang 端则对应进行解包。这种重新设计显著提升了代码的健壮性与维护性，避免了因格式解析错误导致的崩溃或数据错乱。对于正在面临类似跨语言通信与数据结构映射难题的开发者，这篇文章提供了从踩坑到优化路径的一手参考。

本机暂存

IT 2011-06-02 13:34:51 / 累计浏览 6,000

HIVE中UDTF编写和使用

这篇讲的是 Hive 中一个非常实用但相对进阶的知识点：如何编写和使用 UDTF（用户自定义表生成函数）。文章开宗明义地介绍了 UDTF 的作用——它能够处理一行输入、生成多行输出，这是普通 UDF 无法做到的。作者从基础概念切入，详细阐述了 UDTF 的核心应用场景，例如将复杂的 JSON 数组或 Map 结构“炸开”成多行记录。文章没有停留在理论，而是聚焦于实践：重点讲解了实现一个自定义 UDTF 所需的关键步骤，包括如何继承 `GenericUDTF` 类、实现 `initialize()`、`process()` 和 `close()` 方法，并特别强调了输出行的构造方法。对于开发者而言，文中关于如何处理复杂数据类型（如 Struct 和 Array）的输入输出，以及如何通过 `forward()` 方法逐行发送结果的说明，是立刻可以用于解决实际问题的干货。文章也指出了在聚合操作中使用 UDTF 时需要配合 `LATERAL VIEW` 的正确语法。整篇内容非常扎实，它把一个看似复杂的组件拆解得清晰明了，非常适合那些已经掌握 Hive 基础，但需要处理半结构化数据或进行复杂数据转换的开发者参考。

本机暂存

IT 2011-06-02 13:33:32 / 累计浏览 5,640

Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理

写Hadoop作业时，如果遇到输入数据是GBK编码会怎样？MapReduce默认按UTF-8来读取，这时你可能会面对一堆乱码，或是直接看到程序抛出字符集相关的异常。作者从这个常见的实战坑点出发，解释了问题的根源：InputFormat在读取文本时使用的编码方案与实际数据不符。文章并没有停留在问题描述上，而是直接给出了具体的解决方案。核心思路是在作业配置中明确指定字符集，或者通过自定义一个能识别GBK的输入格式来正确解析数据流。作者特别提到了从经验丰富的同事那里学来的一行配置代码，这种从实践中快速定位并解决问题的“一行代码”方案，往往比教科书式的步骤更直接有效。对于需要在Hadoop生态中处理历史数据、日志文件或其他来源的非UTF-8数据集的开发者来说，文章提供了明确的排查路径和验证过的解决方法，帮助避免在数据源编码上栽跟头。

本机暂存

IT 2011-06-02 13:31:39 / 累计浏览 3,620

使用gcov完成代码覆盖率的测试

代码覆盖率测试是保障软件质量的重要环节，尤其对于使用GCC工具链的开发者而言。这篇文章深入介绍了GNU工具集中的gcov——一款免费且实用的代码覆盖率工具。作者从gcov的基本原理入手，逐步展开其使用方法，并着重分析了在实际项目集成中可能遇到的痛点，比如编译选项的影响、覆盖率数据的采集与解读等常见问题，并提供了清晰的解决思路。文中还特别指出，gcov可以与lcov等前端工具结合，生成结构清晰、可视化的HTML格式测试报告，使覆盖率数据一目了然，便于团队跟踪与评审。对于希望以较低成本、较高效率将代码覆盖率测试融入开发流程的团队，这篇文章提供了一套从基础操作到问题排查的完整实践参考。

本机暂存

IT 2011-06-02 13:26:27 / 累计浏览 4,500

Hadoop集群间Hadoop方案探讨

这篇讲的是在多个Hadoop集群间进行数据迁移时，如何用好`distcp`这个工具。作者从实际工作场景出发，直面一个常见痛点：集群版本不一致、不同机房的ACL策略各异，这些都让看似简单的跨集群拷贝变得复杂。文章没有泛泛而谈，而是系统整理了作者遇到的各种具体需求与挑战。核心思路是围绕`distcp`展开，探讨在不同约束条件下（比如权限、网络、数据量）的可行方案与配置要点。通过分享这些实战案例，文章旨在为遇到相似问题的同行提供一套可参考的“问题-方案”映射思路，帮你快速判断自己的场景该如何处理。文章最后归类总结了多种情况，其价值不在于给出唯一答案，而在于呈现了解决这类异构集群数据流通问题时，需要考虑的关键维度和常见排障路径。

本机暂存

IT 2011-05-25 13:33:41 / 累计浏览 1,900

一种oracle2hdfs的数据推送思路

这篇讲的是作者在迁移旧应用时，重新翻出了一个自己以前编写的、用于将Oracle数据库数据同步到Hadoop HDFS的程序，并决定将其核心思路分享出来。文章聚焦于一个具体的数据同步场景：如何稳定地将传统关系型数据库（Oracle）中的数据，批量或增量地推送到大数据平台（HDFS）上。作者没有空谈理论，而是基于自己生产环境中的实践，梳理了从数据源读取、可能的数据转换到最终写入HDFS的具体技术路径。分享的重点在于实现的思路和架构考虑，比如如何处理两边数据结构的差异，以及如何保证数据推送的可靠性。对于正在面临类似数据集成需求，尤其是需要将OLTP数据导入数据湖或离线数仓的团队来说，这种直接来自实践的一线经验，提供了比通用文档更具体的参考价值。

本机暂存

IT 2011-05-25 12:33:30 / 累计浏览 4,740

Hadoop超级安装手册

这篇指南源于团队在实践中观察到新手安装Hadoop时频繁遇到的障碍，因此整理出这份覆盖从零到集群的“傻瓜版”手册。文章首先明确了Hadoop运行的前置条件，即确保SSH/SSHD服务正常与JDK安装到位。随后进入核心安装流程：从下载解压源码开始，逐步详解如何配置环境变量（如JAVA_HOME），并重点剖析了`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`三个关键配置文件的参数设置，例如文件系统地址与副本数。对于单节点部署，指南涵盖了SSH免密配置、格式化NameNode、启动与验证的全过程，并提供了具体的Web UI检查地址。进阶部分则扩展至多节点集群搭建，详细说明了跨主机SSH密钥分发、Masters/Slaves文件配置以及最终如何将配置同步至所有节点。整篇内容条理清晰，将复杂的安装过程拆解为可逐步执行的命令与配置，特别适合需要快速搭建起Hadoop环境进行实践的初学者。

本机暂存

IT 2011-05-25 12:28:02 / 累计浏览 3,940

Hadoop安装端口已经被占用问题的解决方法

这篇文章针对的是Hadoop初学者或运维人员在部署时常遇到的一个棘手问题：在多台机器共享的环境中安装Hadoop时，由于端口被提前占用导致安装失败。问题的根源在于，当多人或多个服务共用一批机器时，某些Hadoop默认或配置的端口可能已被其他进程或之前未完全清理的服务占用，使得新的Hadoop进程无法正常启动。文章没有停留在描述问题上，而是详细给出了排查思路和解决方法。它引导读者一步步定位到底是哪个端口、被哪个进程所占用，并提供了相应的终止进程或修改Hadoop配置端口的具体操作步骤。这种从实际故障场景出发，直接提供可操作性解决方案的写法，对于正在为安装报错而头疼的读者来说非常实用。它让读者明白，遇到类似端口冲突时，不必慌张，可以通过系统化的排查来解决问题，从而顺利完成部署。

本机暂存

IT 2011-05-25 12:26:50 / 累计浏览 4,380

几个HIVE的streaming

作者分享了在实际项目（JIS旺铺装修数据开发）中，因Hive原生功能不足而编写四个Python Streaming的实战案例。每个案例都针对一个具体的数据处理痛点，提供了可直接复用或修改的代码示例。文章逐一拆解了这四个脚本的核心逻辑：前两个用于处理流式数据中的“前序”与“后序”输出，基于分组和特定标志位（flag）进行行级过滤；第三个实现了十进制到三十六进制的转换函数；第四个则相对复杂，处理行内字段拼接与跨行分组聚合，并包含了时间戳格式化等细节。这些实现的关键在于巧妙地利用了Streaming脚本对标准输入的逐行处理能力，通过维护状态（如前序ID、分组标识）来完成Hive SQL较难表达的序列逻辑。代码虽短，却展现了将复杂数据操作拆解为流式处理步骤的清晰思路，对于有类似数据清洗、序列归并需求的开发者很有参考价值。

本机暂存

IT 2011-04-29 13:41:11 / 累计浏览 3,300

HIVE的CTAS用法探究

这篇讲的是在实际数据处理中一个看似微小却影响下游的问题。作者在使用ADM系统时，发现其自动将Hive QL封装为CTAS（Create Table As Select）语句后，导出的数据中NULL值全部显示成了“\\N”这个字符串。这给需要接收这些数据文件的下游客户带来了困扰，因为对方的数据处理系统并不认得这个特殊字符。问题的根因在于Hive的默认存储机制：它内部使用字符串“\\N”来表示空值（NULL）。当数据通过CTAS创建并后续导出时，这个表示方式被原样保留了下来，导致了语义上的混淆。文章深入剖析了这一机制，并针对如何正确处理CTAS操作中的NULL值给出了具体的解决方法和配置调整建议。通过这个案例，我们可以看到，在构建数据管道时，对上游系统默认行为的理解至关重要，一个小小的参数差异就可能影响整个数据流转的可用性。

本机暂存