标签：分布式计算

共 12 篇相关文章

IT 累计浏览 2,560

Spark的性能调优

这篇文章从实战经验出发，汇总了Spark性能调优的多个关键方向。内容不仅涵盖基础配置，更深入到应用代码设计与任务执行策略。开篇即点明，调优的第一步往往从数据序列化开始，对比了默认的Java序列化与更快更紧凑的Kryo方案。紧接着是内存管理，文章给出了具体的检测方法（如使用UI或SizeEstimator）和优化建议（如启用压缩指针）。GC调优部分尤为实用，解释了默认内存分配比例、Eden区设置，并分享了如何避免因大量对象创建导致的“GC overhead limit exceeded”错误。对于影响性能的关键因素，文章详细阐述了并行度、Reduce Task内存使用以及Shuffle的优化。例如，通过广播变量减少大表shuffle是一个经典模式。数据本地性的五个层级及其调度策略也被清晰说明。文件存储与读取优化（如使用Parquet列存格式）和Speculation（推测执行）机制也被纳入考量。最后，文章强调了合理设置分区数和减少不必要Shuffle的重要性，并给出了具体的代码示例指引。整篇文章既包含JVM级别的参数调整，也涉及Spark应用层的数据结构设计与API选择（如prefetchByKey vs groupByKey），是一份从理论公式到实战经验的综合性调优指南。

IT 累计浏览 4,295

Spark：一个高效的分布式计算系统

这篇讲的是Spark这个基于内存的分布式计算框架，作者从Spark与Hadoop的对比出发，深入介绍了其核心优势和关键特性。文章指出，Spark通过将中间结果保存在内存中，避免了Hadoop MapReduce频繁读写HDFS的瓶颈，从而在迭代运算密集的数据挖掘与机器学习任务中效率显著提升。其核心创新在于RDD（弹性分布式数据集）的抽象，它使得开发者能以操作本地集合的方式来处理分布式数据，支持丰富多样的转换和行动操作，编程模型比Hadoop的Map和Reduce更加灵活。文章还剖析了RDD的存储、分区、容错机制（通过血缘信息和检查点）及其11种存储级别，这些共同构成了Spark高效、可靠的基础。此外，文章梳理了Spark的生态系统，包括兼容Hive的Shark、用于流处理的Spark Streaming以及图计算框架Bagel，并列举了其多种运行模式与在业界的早期应用。总体而言，Spark并非Hadoop的替代品，而是一个更通用、更适合迭代计算的补充，它直接读写HDFS并支持在YARN上运行，为处理海量数据提供了新的高效选择。

IT 累计浏览 2,650

Storm入门教程第三章 Storm安装部署步骤

这篇讲的是如何动手搭建一个Storm集群的实战指南。文章基于Storm官方Wiki，从介绍集群架构开始——它由负责分发任务的Nimbus主节点和执行任务的Supervisor工作节点构成，两者通过Zookeeper进行协调，且设计为无状态、快速失败，保证了高可用性。其价值不止于罗列安装步骤。作者真正强调的是部署中容易遇到的“坑”以及对应的解决方案。例如，在搭建Zookeeper时，提醒要配置监控程序实现自动重启，并定期清理日志以避免磁盘占满；在安装ZeroMQ依赖库时，明确指出应避开有严重bug的2.1.10版本，推荐使用2.1.7，并提供了特定系统报错时的解决方法。这些来自实践的细节，能帮开发者避开很多重复摸索。对于想从零开始部署Storm或理解其底层协调机制的技术人员，这篇教程提供了清晰的路线图和宝贵的避坑经验，将理论步骤与实战注意事项结合得相当扎实。

IT 累计浏览 5,138

storm入门教程第一章前言

这篇Storm入门系列的开篇第一章，从互联网对“实时性”的需求演进讲起。作者指出，从早期的Portal信息浏览到SNS、电子商务，数据爆炸与实时处理的需求催生了流式框架，而2010年S4、2011年Storm的开源，真正让开发者能低成本地构建实时应用。文章重点解析了Storm作为分布式实时计算系统的六大核心特点。它借鉴了Hadoop的编程模型，提供了简单优美的原语来处理并行实时任务；其“可扩展性”体现在工作进程、线程和任务的多层并行结构上。尤为关键的是其“高可靠性”设计——Storm通过跟踪消息树并利用异或计算，确保每条消息都能被“完全处理”，并保证了容错性与水平扩展能力。此外，Storm还支持通过多语言协议使用任意语言开发，并提供了模拟集群的本地模式，极大方便了开发与测试。本章不仅是功能列表，更描绘了Storm如何将开发者从繁琐的分布式系统底层细节中解放出来，使其能专注于业务逻辑。

IT 累计浏览 6,057

新浪微博笔试题：找出共有2个以上标签的用户对

在微博这样的社交平台上，如何从海量用户标签关系中高效找出共享多个标签的用户对？这篇技术文章从一道经典的笔试题切入，详细拆解了一个大规模数据处理问题的思路。作者面对的核心挑战是：给定一亿用户和约三十万标签，每个用户最多十个标签，需要输出所有共享两个或以上标签的用户对及其共同标签。文章首先分析了数据特点，比如相当数量用户没有标签，这可以先通过过滤来减少计算量。接着，核心方案是构建标签到用户的倒排索引，将标签映射到用户ID列表，从而快速查找共享标签的用户。作者基于对微博系统可能采用NOSQL存储的假设，给出了具体的数据格式示例，并提供了Python代码实现倒排索引构建的过程——通过遍历用户标签列表，动态更新字典结构来关联标签与用户ID列表。此外，文章还考虑了一些优化细节，比如对用户ID排序并只查找更大ID的用户，以避免结果重复输出。尽管作者自谦方法较基础，但整体展示了一个清晰的处理流程，将抽象笔试题转化为可操作的数据处理步骤，倒排索引的应用对于处理海量关系数据具有实际参考价值。

IT 累计浏览 2,085

hadoop笔记 (2)：pipes例子分析 (1)

这篇讲的是Hadoop中一个相对小众但很实用的C++接口——Pipes。由于官方文档的缺失，作者选择了一条很实际的路径：直接从Hadoop自带的示例代码入手，一步步拆解其工作原理。文章基于Debian 6 amd64和Hadoop 1.0.3的环境，没有空谈理论，而是带着读者走进具体的代码文件。分析的重点在于Pipes如何作为桥梁，让C++编写的Mapper和Reducer能与Java框架进行通信和协作。作者梳理了从任务启动、数据流传输到结果汇总的关键流程，揭示了框架背后如何用序列化和网络通信封装了分布式计算的复杂性。对于想在Hadoop生态里使用C++，或者对跨语言RPC实现感兴趣的开发者来说，这篇从实际例子出发的梳理，比零散的片段信息更能帮你建立起对Pipes工作机制的整体认识。

IT 累计浏览 3,817

Spark随谈——开发指南（译）

这篇指南针对的是Spark 0.5.0版本，它翻译自官方的Spark Programming Guide，并结合了一些作者的补充说明。它不是泛泛的概念介绍，而是从实际编程出发，详细讲解了如何在Spark中编写应用程序。文章清晰地梳理了从初始化SparkContext、操作弹性分布式数据集（RDD），到进行转换（Transformation）和动作（Action）的完整流程。特别提到了RDD的两种创建方式、关键操作如`map`、`reduce`、`filter`以及持久化策略。这些细节对于刚接触Spark、希望快速上手编写的开发者来说，是很好的起点。虽然版本较早，但其阐述的核心编程模型——基于RDD的函数式操作和惰性求值原理——构成了后续Spark SQL、Streaming等模块的基础。对于想了解Spark底层设计哲学或处理历史代码的开发者，这份指南依然具有不错的参考价值。

IT 累计浏览 3,753

《big data glossary》之MapReduce

这篇翻译自O'Reilly《Big Data Glossary》第三章的文章，聚焦于大数据处理的基石——MapReduce。作者从MapReduce的核心思想“分而治之”出发，讲解了这个编程模型如何通过Map（映射）和Reduce（归约）两个阶段，将海量数据任务分发到集群的成百上千台机器上并行处理。文章并未停留在概念层面，而是深入剖析了其背后的实现逻辑：一个作业被拆分成多个任务，由主节点（Master）协调分配给工作节点（Worker），中间结果通过网络传输并聚合。这种设计巧妙地解决了可靠性与扩展性的问题——即使部分节点失效，任务也能被重新调度。同时，译文也指出了MapReduce的典型适用场景：对大规模数据集进行批量、离线的分析和聚合，例如日志处理或生成报表。它并非万能，对于需要低延迟或复杂迭代的任务，后续的框架如Spark则提供了不同的思路。通过这篇清晰的译文，读者可以快速把握MapReduce的设计哲学与工程权衡，这为理解Hadoop生态乃至更现代的大数据架构打下了坚实的概念基础。

IT 累计浏览 5,782

Storm源码浅析之topology的提交

这篇讲的是Apache Storm中，一个topology从提交到成功运行的完整源码旅程。作者没有停留在概念层，而是直接从客户端发起`submitTopology`调用开始，一路追踪到底。核心在于展示客户端如何将整个拓扑的计算图（spouts和bolts的连接关系、配置等）序列化，并通过Thrift RPC发送给Nimbus主节点。文章细致地拆解了Nimbus接收请求后的处理流程，比如它如何将提交的拓扑信息持久化到ZooKeeper，从而保证即使Nimbus重启，拓扑状态也能恢复。巧妙之处在于，Storm将“提交”这个动作设计为一个异步过程。客户端提交后得到的只是一个拓扑ID，实际的调度和启动完全由Nimbus和Supervisor节点在后台协作完成。这种设计解耦了客户端操作与集群资源调度，是理解Storm分布式协调机制的一个绝佳入口。对于想深入理解分布式系统如何处理元数据提交与容错的开发者来说，跟着这篇源码分析走一遍，会对Storm的鲁棒性有更直观的认识。

IT 累计浏览 3,658

Hadoop Job Tuning

这篇讲的是当Hadoop集群规模扩大后，如何应对随之而来的压力与瓶颈。作者从数据处理规模激增引发的连锁问题切入，指出节点负担加重和网络带宽受限是两大核心挑战。文章并非泛泛而谈，而是聚焦于“作业调优”这一具体抓手，探讨如何通过优化Job配置与执行策略来提升整体效率。文章可能会深入分析几个关键方向：如何通过调整Map和Reduce任务的数量与并行度来匹配集群资源；怎样优化数据本地性以减少网络传输开销；以及针对常见的数据倾斜问题提出具体的应对方案。作者旨在说明，合理的Job调优不仅是技术细节的调整，更是释放集群潜力、控制运营成本的有效手段，对于维护大规模数据平台的健康运行至关重要。

IT 累计浏览 11,186

海量数据面试题举例

这篇讲的是互联网大厂面试中高频出现的海量数据处理问题。作者从百度、腾讯等公司的实际考察重点出发，梳理了一系列经典的笔试面试题。文章没有停留在简单的题目列举，而是拆解了每类问题背后考察的核心能力。比如，面对数十亿条日志数据如何高效排序？在有限内存下怎样实现精准去重？如何快速统计海量文本的词频TOP-K？每个问题都给出了不止一种解法，并对比了不同方案的资源消耗、时间复杂度和适用边界。作者特别强调了分治、哈希、BitMap、堆、外排序等思想在解决这类问题时的组合运用。比如，对于排序问题，文章详细对比了传统归并与利用MapReduce框架的思路差异；对于去重，则剖析了Bloom Filter与数据库索引在准确性与效率上的权衡。这种将抽象原理映射到具体场景的写法，能帮助读者快速建立系统化的解题框架，无论是应对面试还是处理实际工程中的数据挑战，都能找到可落地的参考。

IT 累计浏览 5,367

利用开源的Gearman框架构建分布式图片处理平台[原创]

这篇分享来自2009年金山逍遥技术团队的内部交流，聚焦于他们如何使用开源的Gearman框架，从零构建起名为DIPS的分布式图片处理平台。文章的核心是解决一个具体的生产问题：如何应对日益增长的、高并发的图片处理请求，实现任务的高效分发与并行处理。作者团队选择了轻量级的分布式任务队列框架Gearman作为技术基座，详细介绍了从架构设计到落地实施的完整过程，包括如何利用Gearman的Worker机制将计算任务分发到多个节点，从而水平扩展图片处理能力。文中通过一系列PPT清晰地展示了DIPS的整体架构与工作流，体现了如何借助开源工具快速搭建出稳定、可扩展的后台服务系统。对于关注分布式计算早期实践，或需要构建类似异步任务处理系统的开发者而言，这篇回顾提供了具体的架构思路与落地经验。