Data Lake Analytics,大数据的ETL神器! (yq.aliyun.com)

【简介】

数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake。基于数据湖做分析,可以不用做任何ETL、数据搬迁等前置过程,实现跨各种异构数据源进行大数据关联分析,从而极大的节省成本和提升用户体验。关于Data Lake的概念。

点击查看全文 >>

@可耐芊小仙女 2019-03-01 17:33分享 / 0个评论
赞过的人: 技术头条
要不要再学学下面的文章?
王坚十年前的坚持,才有了今天世界顶级大数据计算平台MaxCompute (yq.aliyun.com)
数据是企业的核心资产,但十年前阿里巴巴的算力已经无法满足当时急剧增长数据量的需求。基于Hadoop搭建集群是当时解决大规模数据计算的主流方案,Hadoop生态已经比较成熟,而且在规模上也可以解决当时阿里遇到的性能瓶颈。但刚加入阿里的王坚却另辟蹊径,决定自研一个大数据计算平台,也就是今天的MaxCompute。
by @可耐芊小仙女 2019-04-16 16:15 分享 查看详情
使用Data Lake Analytics读/写RDS数据 (yq.aliyun.com)
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于RDS(目前支持 MySQL , SQLServer , Postgres 引擎)的支持, 这篇教程带你玩转 DLA 的 RDS 支持。我们文章中会以 MySQL 的介绍为主,最后会简要介绍下 SQLServer 与 Postgres 的一些不同点、需要注意的地方。
by @可耐芊小仙女 2019-04-12 16:53 分享 查看详情
使用Data Lake Analytics从OSS清洗数据到AnalyticDB (yq.aliyun.com)
必须是同一阿里云region的Data Lake Analytics(DLA)到AnalyticDB的才能进行清洗操作;
开通并初始化了该region的DLA服务;
开通并购买了AnalyticDB的实例,实例规模和数据清洗速度强相关,与AnalyticDB的实例资源规模基本成线性比例关系。
by @可耐芊小仙女 2019-04-12 16:47 分享 查看详情
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析 (yq.aliyun.com)
消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTime=系统前分钟到[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。
by @可耐芊小仙女 2019-04-09 15:57 分享 查看详情
信用算力实现金融级数据服务的实践 (yq.aliyun.com)
纵观微服务实施过程中的弊端,可以推断出作者的意图,就是希望系统架构者能够谨慎地对待分布式调用,这是分布式系统自身存在的缺陷所致。但无论是 RPC 框架,还是 REST 框架,都因为驻留在不同进程空间的分布式组件,而引入了额外的复杂度。因而可能对系统的效率、可靠性、可预测性等诸多方面带来负面影响。
by @可耐芊小仙女 2019-04-04 15:08 分享 查看详情
大数据“重磅炸弹”——实时计算框架 Flink (mp.weixin.qq.com)
Flink 多篇博客和问题以及资料分享,《从1到100深入学习Flink》源码学习这个系列文章,《从0到1学习Flink》的案例文章也会优先在知识星球更新,让大家先通过一些 demo 学习 Flink,再去深入源码学习
by @zhisheng_tian 2019-04-03 19:38 分享 查看详情
为数据计算提供强力引擎,阿里云文件存储HDFS v1.0公测发布 (yq.aliyun.com)
在2019年3月的北京云栖峰会上,阿里云正式推出全球首个云原生HDFS存储服务—文件存储HDFS,为数据分析业务在云上提供可线性扩展的吞吐能力和免运维的快速弹性伸缩能力,降低用户TCO。阿里云文件存储HDFS的发布真正解决了HDFS文件系统不适应云上场景的缺陷问题,用户无须花费精力维护和优化底层存储。
by @可耐芊小仙女 2019-04-02 15:37 分享 查看详情
《从0到1学习Flink》—— Flink 读取 Kafka 数据写入到 RabbitMQ (mp.weixin.qq.com)
之前有文章 《从0到1学习Flink》—— Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去,当然我们常用的消息队列可不止这一种,还有 RocketMQ、RabbitMQ 等,刚好 Flink 也支持将数据写入到 RabbitMQ,所以今天我们就来写篇文章讲讲如何将 Flink 处理后的数据写入到 RabbitMQ。
by @zhisheng_tian 2019-04-01 21:54 分享 查看详情
企业级性能、安全可靠 阿里云发布企业级大数据平台开发者版 (yq.aliyun.com)
3月20日,阿里云宣布推出企业级大数据计算平台MaxCompute开发者版。该版本基于MaxCompute原有的分布式架构,具备高可靠、企业级安全能力、全面融合开源等特点,可轻松做到开箱即用,分钟级拥有大数据开发项目,帮助开发者突破技术壁垒,降低门槛和成本,提高大数据开发效率,实现个人技术能力和业务的快速增长。
by @可耐芊小仙女 2019-04-01 15:32 分享 查看详情
如何使用Data Lake Analytics创建分区表 (yq.aliyun.com)
Data Lake Analytics (后文简称DLA)提供了无服务化的大数据分析服务,帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。

在关系型数据库中,用户可以对大数据量的表进行分区,提高查询的性能。同样在DLA中,用户可以使用分区表将数据进行细化,达到缩短查询响应时间的目的。

本文将以OSS数据源为例,详细介绍如何在DLA中创建和使用分区表。
by @可耐芊小仙女 2019-03-29 16:35 分享 查看详情