Data Lake Analytics: 使用DataWorks来调度DLA任务 (yq.aliyun.com)

【简介】

DataWorks作为阿里云上广受欢迎的大数据开发调度服务,最近加入了对于Data Lake Analytics的支持,意味着所有Data Lake Analytics的客户可以获得任务开发、任务依赖关系管理、任务调度、任务运维等等全方位强大的能力,今天就给大家介绍一下如何使用DataWorks来调度DLA的脚本任务。

点击查看全文 >>

@可耐芊小仙女 2019-03-11 15:24分享 / 0个评论
要不要再学学下面的文章?
MaxCompute SQL 使用正则表达式选列 (yq.aliyun.com)
编辑MaxCompute SQL 时,经常会需要在某个表N个列中指定一些列。若需要指定的列比较少,编写SQL时一个个输入既可。当遇到列多的时候,一个个输入就会非常费劲。本文将介绍如何在编写MaxCompute SQL时通过正则表达式表达列(column),从而提升编码效率。
by @可耐芊小仙女 2019-04-16 15:47 分享 查看详情
使用Data Lake Analytics读/写RDS数据 (yq.aliyun.com)
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于RDS(目前支持 MySQL , SQLServer , Postgres 引擎)的支持, 这篇教程带你玩转 DLA 的 RDS 支持。我们文章中会以 MySQL 的介绍为主,最后会简要介绍下 SQLServer 与 Postgres 的一些不同点、需要注意的地方。
by @可耐芊小仙女 2019-04-12 16:53 分享 查看详情
使用Data Lake Analytics从OSS清洗数据到AnalyticDB (yq.aliyun.com)
必须是同一阿里云region的Data Lake Analytics(DLA)到AnalyticDB的才能进行清洗操作;
开通并初始化了该region的DLA服务;
开通并购买了AnalyticDB的实例,实例规模和数据清洗速度强相关,与AnalyticDB的实例资源规模基本成线性比例关系。
by @可耐芊小仙女 2019-04-12 16:47 分享 查看详情
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析 (yq.aliyun.com)
消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTime=系统前分钟到[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。
by @可耐芊小仙女 2019-04-09 15:57 分享 查看详情
JVM面试问题系列:7种JVM垃圾收集器特点,优劣势、及使用场景! (mp.weixin.qq.com)
一、常见垃圾收集器

现在常见的垃圾收集器有如下几种:

新生代收集器:

Serial

ParNew

Parallel Scavenge

老年代收集器:

Serial Old

CMS

Parallel Old
by @zhisheng_tian 2019-04-01 21:56 分享 查看详情
如何使用Data Lake Analytics创建分区表 (yq.aliyun.com)
Data Lake Analytics (后文简称DLA)提供了无服务化的大数据分析服务,帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。

在关系型数据库中,用户可以对大数据量的表进行分区,提高查询的性能。同样在DLA中,用户可以使用分区表将数据进行细化,达到缩短查询响应时间的目的。

本文将以OSS数据源为例,详细介绍如何在DLA中创建和使用分区表。
by @可耐芊小仙女 2019-03-29 16:35 分享 查看详情
如何在Data Lake Analytics中使用临时表 (yq.aliyun.com)
Data Lake Analytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品,可以对存储在OSS,OTS上的数据进行查询分析。相较于传统的数据分析产品,用户无需将数据重新加载至DLA,只需在DLA中创建一张与数据源关联的表,不仅简化了分析过程,还节约了存储成本,是做大数据分析的不二之选。
by @可耐芊小仙女 2019-03-29 16:30 分享 查看详情
使用split_size优化的ODPS SQL的场景 (yq.aliyun.com)
说明1:split_size,设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。设置语句:set odps.sql.mapper.split.size=256。一般在调整这个设置时,往往是发现一个map instance处理的数据行数太多。

说明2:小文件越多,需要instance资源也越多,MaxCompute对单个Instance可以处理的小文件数限制为120个,如此造成浪费资源,影响整体的执行性能(文件的大小小于块Block 64M的文件)。
by @可耐芊小仙女 2019-03-26 16:03 分享 查看详情
Kubernetes 调度器实现初探 (yq.aliyun.com)
Kubernetes中的调度器,是作为单独组件运行,一般运行在Master中,和Master数量保持一致。通过Raft协议选出一个实例作为Leader工作,其他实例Backup。 当Master故障,其他实例之间继续通过Raft协议选出新的Master工作。
by @可耐芊小仙女 2019-03-26 15:57 分享 查看详情
使用Airflow来调度Data Lake Analytics的任务 (yq.aliyun.com)
今天我们来介绍一下使用Airflow来调度 Data Lake Analytics(后面简称DLA)的任务执行。DLA作为一个数据湖的解决方案,
客户有每天周期性的调度一些任务从DLA查询数据回流到业务系统的需求。因为DLA兼容
MySQL的协议,因此所有支持MySQL的协议的调度框架都天然支持DLA,今天就来介绍一下使用业界著名的
Apache Airflow 来调度DLA的作业。
by @可耐芊小仙女 2019-03-22 17:26 分享 查看详情