相关分享
Spark向量化计算在美团生产环境的实践
美团在 Spark 生产环境中引入了向量化计算,使用 Gluten 和 Velox 框架,实现了大数据任务的加速和资源优化。本文详细讲解了 Spark 向量化的原理、性能提升以及美团的实施过程和遇到的挑战,适合关注大数据优化的技术人员。
Spark在MaxCompute的运行方式
左侧是原生Spark的架构图,右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算
X-Pack Spark服务通过外部计算资源的方式,为Redis、Cassandra、MongoDB、HBase、RDS存储服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决用户数据处理相关场景问题。
Flink on YARN(下):常见问题与排查思路
Flink 支持 Standalone 独立部署和 YARN、Kubernetes、Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛。Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上、下两篇。上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路。
Flink on YARN(下):常见问题与排查思路
Flink 支持 Standalone 独立部署和 YARN、Kubernetes、Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛。Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上、下两篇。上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路。
一张图轻松掌握 Flink on YARN 应用启动全流程(上)
Flink 支持 Standalone 独立部署和 YARN、Kubernetes、Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛。Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上、下两篇。本文基于 FLIP-6 重构后的资源调度模型将介绍 Flink on YARN 应用启动全流程,并进行详细步骤解析。下篇将根据社区大群反馈,解答客户端和Flink Cluster的常见问题,分享相关问题的排查思路。
Hadoop YARN:调度性能优化实践
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。
美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。
基于Yarn的分布式应用调度器Slider
Apache Hadoop Map-Reduce框架为了解决规模增长问题,发展出了yarn。而yarn不仅解决Map-Reduce调度问题,还成为了一个通用的分布式应用调度服务。yarn中的一个创新是把各种不同应用的调度逻辑拆分到了一个称为ApplicationManager(以下简称AM)的角色中,从而让yarn自己变得更通用,同时解决调度性能问题。ApacheSlider就是这其中的一个AM具体实现。但Slider进一步做了通用化,可以用于调度长运行(long-running)的分布式应用。
为了更好地理解Slider/Yarn,需要思考这样一个问题:在不用Slider/Yarn这种自动部署并管理应用的软件时,我们如何在一个网络环境中部署一个分布式应用?
Hadoop YARN:调度性能优化实践
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。
美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。
离线业务主要运行的是Hive on MapReduce, Spark SQL为主的数据仓库作业。
实时业务主要运行Spark Streaming,Flink为主的实时流计算作业。
机器学习业务主要运行TensorFlow,MXNet,MLX(美团点评自研的大规模机器学习系统)等计算作业。
从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路
MaxCompute依托于阿里云的飞天基础架构,与今天业界常见的依托虚拟机技术 + 开源引擎的云原生方案有很大的不同。 随着联合计算平台的推出,MaxCompute 从可以无缝集成 Spark,到今天可以通过提供标准的 Kubernetes 拥抱更加丰富的开源生态,一直秉承“保持自研优势,拥抱开源生态”的原则,走出了一条与众不同的实践之路。
