Spark Accumulators (www.cnblogs.com)
@MOBIN-F 2016-12-16 10:22 / 0个评论
赞过的人: @MOBIN-F
要不要再学学下面的文章?
Spark在MaxCompute的运行方式 (yq.aliyun.com)
左侧是原生Spark的架构图,右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。
by @可耐芊小仙女 2019-12-05 17:07 查看详情
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算 (yq.aliyun.com)
X-Pack Spark服务通过外部计算资源的方式,为Redis、Cassandra、MongoDB、HBase、RDS存储服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决用户数据处理相关场景问题。
by @可耐芊小仙女 2019-11-12 15:23 查看详情
从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路 (yq.aliyun.com)
MaxCompute依托于阿里云的飞天基础架构,与今天业界常见的依托虚拟机技术 + 开源引擎的云原生方案有很大的不同。 随着联合计算平台的推出,MaxCompute 从可以无缝集成 Spark,到今天可以通过提供标准的 Kubernetes 拥抱更加丰富的开源生态,一直秉承“保持自研优势,拥抱开源生态”的原则,走出了一条与众不同的实践之路。
by @可耐芊小仙女 2019-05-21 16:23 查看详情
Spark in action on Kubernetes - 存储篇(一) (yq.aliyun.com)
在上篇文章中,我们分析了Spark Operator内部的机制,今天我们会讨论一个在大数据领域中最重要的话题 - 存储。大数据已经无声无息的融入了每个人的生活中。大到旅游买房,小到外卖打车,都可以看到通过大数据提供数据分析、数据推荐、数据决策的使用场景。大数据要想能够更准确地协助决策,需要在数据多维度、数据完备性等方面有较高要求。可预知的在未来,数据的量级会越来越大,特别是随着5G时代的到来,数据的吞吐量级成指数的增长,数据的维度与来源会越来越多,数据的种类也会变得越来越异质化,对大数据平台也带来新的挑战。成本低、存得多、读写快成为大数据存储的三大问题,而今天我们就会针对这三大问题进行探讨。
by @可耐芊小仙女 2019-04-22 16:59 查看详情
Spark in action on Kubernetes - 存储篇(一) (yq.aliyun.com)
在上篇文章中,我们分析了Spark Operator内部的机制,今天我们会讨论一个在大数据领域中最重要的话题 - 存储。大数据已经无声无息的融入了每个人的生活中。大到旅游买房,小到外卖打车,都可以看到通过大数据提供数据分析、数据推荐、数据决策的使用场景。大数据要想能够更准确地协助决策,需要在数据多维度、数据完备性等方面有较高要求。可预知的在未来,数据的量级会越来越大,特别是随着5G时代的到来,数据的吞吐量级成指数的增长,数据的维度与来源会越来越多,数据的种类也会变得越来越异质化,对大数据平台也带来新的挑战。成本低、存得多、读写快成为大数据存储的三大问题,而今天我们就会针对这三大问题进行探讨。
by @可耐芊小仙女 2019-04-19 11:25 查看详情
Spark in action on Kubernetes - Spark Operator的原理解析 (yq.aliyun.com)
在上篇文章中,向大家介绍了如何使用Spark Operator在kubernetes集群上面提交一个计算作业。今天我们会继续使用上篇文章中搭建的Playground进行调试与解析,帮助大家更深入的理解Spark Operator的工作原理。所以如果没有浏览过上篇文章的同学,可以通过传送门直达,先配置好Playground的环境。
by @可耐芊小仙女 2019-04-03 15:31 查看详情
MaxCompute Spark开发指南 (blog.csdn.net)
本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。

MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业,以满足更丰富的数据处理分析场景。

本文将重点介绍MaxCompute Spark能够支撑的应用场景,同时说明开发的依赖条件和环境准备,重点对Spark作业开发、提交到MaxCompute集群执行、诊断进行介绍。
by @可耐芊小仙女 2019-03-11 15:55 查看详情
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (yq.aliyun.com)
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。
by @幸运的猫耳 2018-04-17 15:12 查看详情
IntelliJ-IDEA-Mavne-Scala-Spark开发环境搭建 (zhuanlan.zhihu.com)
背景

几乎所有编程语言的第一个程序都是 Hello World。
下载并安装JDK、Scala、Maven

之前的Hadoop HA 和 Spark集群的文章中已经安装过JDK、Scala。Maven安装也很简单,略。
下载Idea并安装Scala插件

在线安装有点慢,但网上很多方法解决,略。
创建一个maven-scala工程
by @极乐小程序商店 2017-12-29 12:00 查看详情
亚马逊 与 谷歌 的Spark 技术那家厉害 (www.linuxprobe.com)
Tianhui Michael Li 和 Ariel M’ndange-Pfupfu 将在今年 10 月 10、12 和 14 号组织一个在线经验分享课程:Spark 分布式计算入门。该课程的内容包括创建端到端的运行应用程序和精通 Spark 关键工具。
by @Linux就该这么学 2017-09-24 15:01 查看详情