赞过的人: @MOBIN-F
要不要再学学下面的文章?
Spark在MaxCompute的运行方式 (yq.aliyun.com)
左侧是原生Spark的架构图,右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。
by @可耐芊小仙女 2019-12-05 17:07 查看详情
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算 (yq.aliyun.com)
X-Pack Spark服务通过外部计算资源的方式,为Redis、Cassandra、MongoDB、HBase、RDS存储服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决用户数据处理相关场景问题。
by @可耐芊小仙女 2019-11-12 15:23 查看详情
Flink on YARN(下):常见问题与排查思路 (yq.aliyun.com)
Flink 支持 Standalone 独立部署和 YARN、Kubernetes、Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛。Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上、下两篇。上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路。
by @技术小编443 2019-10-14 17:09 查看详情
Flink on YARN(下):常见问题与排查思路 (yq.aliyun.com)
Flink 支持 Standalone 独立部署和 YARN、Kubernetes、Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛。Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上、下两篇。上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路。
by @可耐芊小仙女 2019-10-10 16:39 查看详情
一张图轻松掌握 Flink on YARN 应用启动全流程(上) (yq.aliyun.com)
Flink 支持 Standalone 独立部署和 YARN、Kubernetes、Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛。Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上、下两篇。本文基于 FLIP-6 重构后的资源调度模型将介绍 Flink on YARN 应用启动全流程,并进行详细步骤解析。下篇将根据社区大群反馈,解答客户端和Flink Cluster的常见问题,分享相关问题的排查思路。
by @可耐芊小仙女 2019-09-25 16:40 查看详情
Hadoop YARN:调度性能优化实践 (mp.weixin.qq.com)
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。

美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。
by @zhisheng_blog 2019-09-22 13:27 查看详情
基于Yarn的分布式应用调度器Slider (codemacro.com)
Apache Hadoop Map-Reduce框架为了解决规模增长问题,发展出了yarn。而yarn不仅解决Map-Reduce调度问题,还成为了一个通用的分布式应用调度服务。yarn中的一个创新是把各种不同应用的调度逻辑拆分到了一个称为ApplicationManager(以下简称AM)的角色中,从而让yarn自己变得更通用,同时解决调度性能问题。ApacheSlider就是这其中的一个AM具体实现。但Slider进一步做了通用化,可以用于调度长运行(long-running)的分布式应用。

为了更好地理解Slider/Yarn,需要思考这样一个问题:在不用Slider/Yarn这种自动部署并管理应用的软件时,我们如何在一个网络环境中部署一个分布式应用?
by @技术头条 2019-08-10 22:38 查看详情
Hadoop YARN:调度性能优化实践 (mp.weixin.qq.com)
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。

美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。

离线业务主要运行的是Hive on MapReduce, Spark SQL为主的数据仓库作业。

实时业务主要运行Spark Streaming,Flink为主的实时流计算作业。

机器学习业务主要运行TensorFlow,MXNet,MLX(美团点评自研的大规模机器学习系统)等计算作业。
by @zhisheng_blog 2019-08-06 23:04 查看详情
从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路 (yq.aliyun.com)
MaxCompute依托于阿里云的飞天基础架构,与今天业界常见的依托虚拟机技术 + 开源引擎的云原生方案有很大的不同。 随着联合计算平台的推出,MaxCompute 从可以无缝集成 Spark,到今天可以通过提供标准的 Kubernetes 拥抱更加丰富的开源生态,一直秉承“保持自研优势,拥抱开源生态”的原则,走出了一条与众不同的实践之路。
by @可耐芊小仙女 2019-05-21 16:23 查看详情
Spark in action on Kubernetes - 存储篇(一) (yq.aliyun.com)
在上篇文章中,我们分析了Spark Operator内部的机制,今天我们会讨论一个在大数据领域中最重要的话题 - 存储。大数据已经无声无息的融入了每个人的生活中。大到旅游买房,小到外卖打车,都可以看到通过大数据提供数据分析、数据推荐、数据决策的使用场景。大数据要想能够更准确地协助决策,需要在数据多维度、数据完备性等方面有较高要求。可预知的在未来,数据的量级会越来越大,特别是随着5G时代的到来,数据的吞吐量级成指数的增长,数据的维度与来源会越来越多,数据的种类也会变得越来越异质化,对大数据平台也带来新的挑战。成本低、存得多、读写快成为大数据存储的三大问题,而今天我们就会针对这三大问题进行探讨。
by @可耐芊小仙女 2019-04-22 16:59 查看详情