Spark的性能调优

四火的唠叨 2016-02-06 23:58:32 累计浏览 2,525 次

本机暂存

内容概览

这篇文章从实战经验出发，汇总了Spark性能调优的多个关键方向。内容不仅涵盖基础配置，更深入到应用代码设计与任务执行策略。

开篇即点明，调优的第一步往往从数据序列化开始，对比了默认的Java序列化与更快更紧凑的Kryo方案。紧接着是内存管理，文章给出了具体的检测方法（如使用UI或SizeEstimator）和优化建议（如启用压缩指针）。GC调优部分尤为实用，解释了默认内存分配比例、Eden区设置，并分享了如何避免因大量对象创建导致的“GC overhead limit exceeded”错误。

对于影响性能的关键因素，文章详细阐述了并行度、Reduce Task内存使用以及Shuffle的优化。例如，通过广播变量减少大表shuffle是一个经典模式。数据本地性的五个层级及其调度策略也被清晰说明。文件存储与读取优化（如使用Parquet列存格式）和Speculation（推测执行）机制也被纳入考量。

最后，文章强调了合理设置分区数和减少不必要Shuffle的重要性，并给出了具体的代码示例指引。整篇文章既包含JVM级别的参数调整，也涉及Spark应用层的数据结构设计与API选择（如prefetchByKey vs groupByKey），是一份从理论公式到实战经验的综合性调优指南。

Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

Data Serialization，默认使用的是Java Serialization，这个程序员最熟悉，但是性能、空间表现都比较差。还有一个选项是Kryo Serialization，更快，压缩率也更高，但是并非支持任意类的序列化。

Memory Tuning，Java对象会占用原始数据2~5倍甚至更多的空间。最好的检测对象内存消耗的办法就是创建RDD，然后放到cache里面去，然后在UI上面看storage的变化；当然也可以使用SizeEstimator来估算。使用-XX:+UseCompressedOops选项可以压缩指针(8字节变成4字节)。在调用collect等等API的时候也要小心——大块数据往内存拷贝的时候心里要清楚。

GC调优。打印GC信息：-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps。默认60%的executor内存可以被用来作为RDD的缓存，因此只有40%的内存可以被用来作为对象创建的空间，这一点可以通过设置spark.storage.memoryFraction改变。如果有很多小对象创建，但是这些对象在不完全GC的过程中就可以回收，那么增大Eden区会有一定帮助。如果有任务从HDFS拷贝数据，内存消耗有一个简单的估算公式——比如HDFS的block size是64MB，工作区内有4个task拷贝数据，而解压缩一个block要增大3倍大小，那么内存消耗就是：4*3*64MB。另外，工作中遇到过这样的一个问题：GC默认情况下有一个限制，默认是GC时间不能超过2%的CPU时间，但是如果大量对象创建(在Spark里很容易出现，代码模式就是一个RDD转下一个RDD)，就会导致大量的GC时间，从而出现OutOfMemoryError: GC overhead limit exceeded，可以通过设置-XX:-UseGCOverheadLimit关掉它。

Level of Parallelism。Spark根据要处理的文件大小设置map task的数量(也可以通过SparkContext.textFile显式指定)，并且使用最大的parent RDD的分区数量来执行reduce操作。设置level of parallelism或者属性spark.default.parallelism来改变并行级别，通常来说，每一个CPU核可以分配2~3个task。

Reduce Task的内存使用。在某些情况下reduce task特别消耗内存，比如当shuffle出现的时候，比如sortByKey、groupByKey、reduceByKey和join等，要在内存里面建立一个巨大的hash table。其中一个解决办法是增大level of parallelism，这样每个task的输入规模就相应减小。

Broadcasting Large Variables。在task使用静态大对象的时候，可以把它broadcast出去。Spark会打印序列化后的大小，通常来说如果它超过20KB就值得这么做。有一种常见情形是，一个大表join一个小表，把小表broadcast后，大表的数据就不需要在各个node之间疯跑，安安静静地呆在本地等小表broadcast过来就好了。

Data Locality。数据和代码要放到一起才能处理，通常代码总比数据要小一些，因此把代码送到各处会更快。Data Locality是数据和处理的代码在屋里空间上接近的程度：PROCESS_LOCAL(同一个JVM)、NODE_LOCAL(同一个node，比如数据在HDFS上，但是和代码在同一个node)、NO_PREF、RACK_LOCAL(不在同一个server，但在同一个机架)、ANY。当然优先级从高到低，但是如果在空闲的executor上面没有未处理数据了，那么就有两个选择：(1)要么等如今繁忙的CPU闲下来处理尽可能“本地”的数据，(1)要么就不等直接启动task去处理相对远程的数据。默认当这种情况发生Spark会等一会儿(spark.locality)，即策略(1)，如果繁忙的CPU停不下来，就会执行策略(2)。

文件存储和读取的优化。比如对于一些case而言，如果只需要某几列，使用rcfile和parquet这样的格式会大大减少文件读取成本。再有就是存储文件到S3上或者HDFS上，可以根据情况选择更合适的格式，比如压缩率更高的格式。

文件分片。比如在S3上面就支持文件以分片形式存放，后缀是partXX。使用coalesce方法来设置分成多少片，这个调整成并行级别或者其整数倍可以提高读写性能。但是太高太低都不好，太低了没法充分利用S3并行读写的能力，太高了则是小文件太多，预处理、合并、连接建立等等都是时间开销啊，读写还容易超过throttle。

Spark的Speculation。通过设置spark.speculation等几个相关选项，可以让Spark在发现某些task执行特别慢的时候，可以在不等待完成的情况下被重新执行，最后相同的task只要有一个执行完了，那么最快执行完的那个结果就会被采纳。

减少Shuffle。其实Spark的计算往往很快，但是大量开销都花在网络和IO上面，而shuffle就是一个典型。举个例子，如果(k, v1) join (k, v2) => (k, v3)，那么，这种情况其实Spark是优化得非常好的，因为需要join的都在一个node的一个partition里面，join很快完成，结果也是在同一个node(这一系列操作可以被放在同一个stage里面)。但是如果数据结构被设计为(obj1) join (obj2) => (obj3)，而其中的join条件为obj1.column1 == obj2.column1，这个时候往往就被迫shuffle了，因为不再有同一个key使得数据在同一个node上的强保证。在一定要shuffle的情况下，尽可能减少shuffle前的数据规模，比如这个避免groupByKey的例子。

合理的partition。运算过程中数据量时大时小，选择合适的partition数量关系重大，如果太多partition就导致有很多小任务和空任务产生；如果太少则导致运算资源没法充分利用，必要时候可以使用repartition来调整，不过它也不是没有代价的，其中一个最主要代价就是shuffle。再有一个常见问题是数据大小差异太大，这种情况主要是数据的partition的key其实取值并不均匀造成的(默认使用HashPartitioner)，需要改进这一点，比如重写hash算法。测试的时候想知道partition的数量可以调用rdd.partitions().size()获知。

其它一些内容。同事发现Spark1.0.1的速度居然比Spark1.1和1.2快很多，而Spark1.2则比前几个版本要吃掉多得多的内存。

可供参考的文档：官方调优文档Tuning Spark，Spark配置的官方文档，Spark Programming Guide，JVMGC调优文档，JVM性能调优文档，How-to: Tune Your Apache Spark Jobs part-1 & part-2。

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

如何成为Python高手（累计阅读 54,992）
Linux 性能监控、测试、优化工具（累计阅读 13,011）
include(“./file.php”)和include(“file.php”)区别（累计阅读 12,789）
hbase介绍（累计阅读 12,367）
Rolling cURL: PHP并发最佳实践（累计阅读 11,488）
海量数据面试题举例（累计阅读 11,114）
关于使用STL的红黑树map还是hashmap的问题（累计阅读 8,875）
jQuery性能优化指南（累计阅读 8,819）
提升磁盘IO性能的几个技巧（累计阅读 8,511）
关于PHP的编译和执行分离（累计阅读 8,345）