相关分享
Spark向量化计算在美团生产环境的实践
美团在 Spark 生产环境中引入了向量化计算,使用 Gluten 和 Velox 框架,实现了大数据任务的加速和资源优化。本文详细讲解了 Spark 向量化的原理、性能提升以及美团的实施过程和遇到的挑战,适合关注大数据优化的技术人员。
Hadoop安全学习
Hadoop集群基本都放在内网,有一层网络隔离做保护,懂这个且想利用和能利用这个做坏事的人比较少,一般不容易出问题;对于没放在内网或者没有做隔离的那些公司或团队,安全意识和能力肯定是有较大欠缺,数据泄露的渠道和方式很多,不缺这一个,都不需要用这种方式来搞数据;使用第三方云服务的公司或团队一般不需要操心底层服务的安全问题,只需要关注上层应用的账号安全和使用安全等问题就行。
MPP架构与Hadoop架构是一回事吗?
现在当人们说到MPP架构时,它们实际上指代的是“分布式数据库”,而Hadoop架构指的则是以Hadoop项目为基础的一系列分布式计算和存储框架。不过由于MPP的字面意思,现实中还是经常有人纠结两者到底有什么联系和区别,两者到底是不是同一个层面的概念。
Spark在MaxCompute的运行方式
左侧是原生Spark的架构图,右边Spark on MaxCompute运行在阿里云自研的Cupid的平台之上,该平台可以原生支持开源社区Yarn所支持的计算框架,如Spark等。
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算
X-Pack Spark服务通过外部计算资源的方式,为Redis、Cassandra、MongoDB、HBase、RDS存储服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决用户数据处理相关场景问题。
Hadoop YARN:调度性能优化实践
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。
美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。
阿里巴巴飞天大数据架构体系与Hadoop生态系统
Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。Hadoop的核心有两大板块:HDFS和MapReduce。
Hadoop YARN:调度性能优化实践
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。
美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。
离线业务主要运行的是Hive on MapReduce, Spark SQL为主的数据仓库作业。
实时业务主要运行Spark Streaming,Flink为主的实时流计算作业。
机器学习业务主要运行TensorFlow,MXNet,MLX(美团点评自研的大规模机器学习系统)等计算作业。
从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路
MaxCompute依托于阿里云的飞天基础架构,与今天业界常见的依托虚拟机技术 + 开源引擎的云原生方案有很大的不同。 随着联合计算平台的推出,MaxCompute 从可以无缝集成 Spark,到今天可以通过提供标准的 Kubernetes 拥抱更加丰富的开源生态,一直秉承“保持自研优势,拥抱开源生态”的原则,走出了一条与众不同的实践之路。
Hadoop Hive迁移至MaxCompute
本文向您详细介绍如何将 Hadoop Hive 数据迁移到阿里云MaxCompute大数据计算服务上。
