UC技术博客 -- IT技术博客大学习 -- 共学习共进步！

首页 / UC技术博客

IT 2013-07-29 22:55:30 / 累计浏览 4,180

Impala与Hive的比较

这篇文章深入对比了Hadoop生态中两款重要的SQL查询工具：Impala与Hive。它们虽然共享HDFS/HBase存储和相同的元数据，但设计目标截然不同。核心差异在于查询引擎的架构。Hive将查询转换为一连串的MapReduce任务，采用“推”式数据流和依赖外存的中间结果落盘，适合长时间、稳定的批处理作业。而Impala受Google Dremel启发，彻底绕开了MapReduce，其分布式查询引擎直接生成执行计划树，并以“拉”式流传输中间数据、最大化使用内存，大幅降低了延迟，专为交互式分析设计。文章详细拆解了Impala的组件与查询流程，并指出其多项优化技术，比如使用LLVM进行运行时代码生成、利用SSE4.2指令集以及更优的I/O调度。不过，Impala在容错和处理超大数据集时存在限制。因此，一个高效的实践是：先用Hive进行耗时的数据清洗与转换，再让分析师在处理后的数据集上利用Impala进行快速、反复的探索与验证。

本机暂存

IT 2013-07-29 22:54:55 / 累计浏览 2,020

自动增量升级方案的设计及实现

这篇讲的是如何通过一套轻量级Shell脚本，实现业务应用（尤其是Web项目）基于SVN版本库的自动增量升级。文章开篇直击痛点：运维与开发人员常面临增量升级时文件拷贝遗漏、rsync无法执行自定义脚本、手工编写升级脚本效率低下且易出错等问题。作者对比了几种常见方法后，提出了一种更优的方案——自动增量升级。其核心思路分两步走。第一步是打包，开发人员执行`gen_manifest.sh`自动生成从版本库中导出的增量文件清单，经人工检查、修剪并可添加自定义脚本（如重启服务）后，由`gen_patch.sh`生成升级补丁包。第二步是升级，运维人员执行`patch.sh`应用补丁，该脚本会自动备份变更文件并执行清单中的定制操作，出现问题时可快速回滚。方案的最大优势在于完全自动化和高度可定制。它无需额外工具，仅靠几个脚本就完成了从差异分析、打包到升级、回滚的闭环，并通过可插拔的方式支持升级时自动执行服务重启等运维操作。作者在文中提供了完整的脚本下载地址与清晰的三步操作流程（生成清单、生成补丁、执行升级），将一套设计思想落地为可直接使用的工具，切实解决了一线开发运维的繁琐负担。

本机暂存

IT 2013-07-28 15:43:45 / 累计浏览 5,620

TCP洪水攻击（SYN Flood）的诊断和处理

这篇讲的是作者团队如何应对一场猛烈的SYN Flood攻击。当网站业务曲线大跌、Web服务器CPU高企、SSH登录困难时，他们从系统日志的“possible SYN flooding”警告和netstat命令中高达数万的SYN_RECV连接状态，迅速锁定了TCP洪水攻击这一元凶。文章没有停留在原理层面，而是给出了从应急到根治的实战路径。初期用iptables粗暴封禁IP段是救火但易误伤；借助F5设备让客户端先完成三次握手再转发后端，被证明效果显著。但作者更分享了无需昂贵设备的内核参数调优方案：将tcp_synack_retries从默认的5次改为0，能让“半连接”的保持时间从180秒骤降至3秒，避免资源耗尽。同时配合调大tcp_max_syn_backlog、文件句柄数等参数，实测后即使在攻击下服务也能保持响应。这是一篇典型的“踩坑”复盘，它清晰地展示了从发现问题、诊断根因，到尝试不同解决方案并最终沉淀出一套可用参数配置的全过程。对于运维和后端开发者而言，文中关于网络状态的判断命令和sysctl.conf的具体配置具有很高的参考价值。

本机暂存

IT 2013-07-28 15:38:48 / 累计浏览 3,500

YARN ResourceManager调度器的分析

这篇深度剖析了YARN ResourceManager中三种核心调度器：FifoScheduler、CapacityScheduler与FairScheduler的设计逻辑与差异。文章从ResourceManager作为资源调度中心的架构出发，详细拆解了调度器的事件处理机制与异步分配模型——即调度器如何通过响应节点心跳、应用提交等六类事件，在内存中维护队列、应用与Container的关系，并最终完成资源匹配。文章的核心价值在于清晰的对比分析。FifoScheduler结构最简单，适合小规模场景；CapacityScheduler通过树状队列与容量限制，旨在最大化集群整体吞吐与利用率；而FairScheduler则侧重于多用户间的资源公平共享，支持动态队列创建与资源抢占。除了基础模型，作者还深入解读了本地优化与延迟调度机制：调度器会优先匹配与数据本地性一致的Container，若不匹配则“延迟”等待机会，以此平衡网络开销与调度效率。文末提供了与调度器紧密相关的集群参数配置解读，帮助读者将理论理解落地。对于需要根据实际业务需求（如多租户隔离、公平性或高吞吐）选型与调优YARN调度器的工程师而言，这是一篇逻辑清晰、细节扎实的参考。

本机暂存

IT 2013-07-28 15:37:51 / 累计浏览 2,820

HAProxy的event_accept函数源码分析

这篇讲的是HAProxy核心组件event_accept函数的源码深度剖析。面对HAProxy复杂庞大的代码库，作者直接指出其函数动辄数百上千行的“代码风格问题”，并选择以event_accept函数为例，通过主动重构来拆解分析，让逻辑脉络清晰起来。文章将函数执行流程系统性地拆解为六个关键步骤：从接收连接后，首先检查连接数与文件描述符是否超限；接着设置客户端socket的非阻塞、TCP优化等属性；然后从内存池分配新会话（session）并初始化状态；再分配处理任务（task）并绑定回调函数；最后分别配置会话的客户端与服务端流接口（stream interface），为后续数据转发做好准备。作者不仅逐步解读了每个步骤的代码逻辑，更通过调整代码顺序和重组变量，呈现了一个更清晰、更模块化的实现思路。这种分析方式让读者能跳过原始代码的冗余，直接抓住HAProxy处理新连接时，在资源分配、状态初始化与任务绑定方面的核心设计逻辑。

本机暂存

IT 2013-07-28 15:36:38 / 累计浏览 2,680

UCMQ简介

这篇技术分享的主角是UCMQ，一个由UC Web开源的轻量级HTTP消息队列。作者坦诚，项目的初衷是改进类似HTTPSQS的方案，解决其底层TC存储因数据膨胀导致的内存与性能瓶颈。 UCMQ的核心设计思路是“去TC化”。它摒弃了传统的TC存储，转而采用更高效的日志文件存储方式。其关键在于数据被顺序写入内存映射的文件中，且缓存区域随读写指针移动，这种设计既大幅节省了内存开销，又保证了出色的读写性能。在特性上，它支持标准HTTP协议与长连接，单实例支持多队列动态管理，并能实时监控队列状态。性能测试数据直观展示了其效果：在配备多核CPU和千兆网卡的环境下，无论是长连接还是短连接，其入队列、出队列速度均能稳定超过10000次/秒。文中也详细介绍了其包含控制模块、网络驱动、队列管理和存储模块的内部架构。尽管作者谦虚地称之为“拙劣的开端”，但文中扎实的架构图解与性能数据，已清晰勾勒出这款高性能HTTP MQ的轮廓。

本机暂存

IT 2013-07-26 13:41:13 / 累计浏览 2,840

利用新词统计特征进行中文分词

这篇讲的是如何改进中文分词模型以更好地适应新领域。作者指出，传统基于条件随机场（CRF）的分词模型主要依赖上下文特征，在面对训练数据未覆盖的新词（如跨领域的专业术语）时，分词准确率会明显下降。为解决这个问题，作者在特征中引入了新词的统计表现特征，比如词频高、搭配稳定等，提出了增强的FCRF模型。在《SIGHAN Bakeoff 2005》语料上的测试表明：当训练和测试文本属于同一领域时，FCRF与传统CRF效果相当；但当跨领域测试时（例如用金融领域模型分词体育文本），FCRF的优势就凸显出来了，其F-score和未登录词召回率（Roov）均有大幅提升，证明新特征有效增强了模型的领域适应性。文章还对比了FCRF与其他分词工具在金庸小说上的表现，并说明FCRF需要预先统计新领域的词频信息，这会略微牺牲分词速度，但换来了更好的新领域适应能力。

本机暂存