使用Data Lake Analytics从OSS清洗数据到AnalyticDB (yq.aliyun.com)

【简介】

必须是同一阿里云region的Data Lake Analytics(DLA)到AnalyticDB的才能进行清洗操作;
开通并初始化了该region的DLA服务;
开通并购买了AnalyticDB的实例,实例规模和数据清洗速度强相关,与AnalyticDB的实例资源规模基本成线性比例关系。

点击查看全文 >>

@可耐芊小仙女 2019-04-12 16:47分享 / 0个评论
要不要再学学下面的文章?
【阿里云新品发布·周刊】第9期:实时大数据开发难、运维难、应用难?来,一站解决! (yq.aliyun.com)
2019年5月15日15时,阿里云DataWorks Stream Studio: 一站式流任务开发平台重磅发布,介绍实时计算任务开发的困难、问题和背景,引出使用Stream Studio可以大大加快实时任务的开发速度,降低开发和维护门槛,同时结合DataWorks的整体能力,能够实现实时数仓、实时监控、实时分析、实时大屏等实时大数据场景的一站式开发。
by @可耐芊小仙女 13小时前 分享 查看详情
阿里云DataWorks正式推出Stream Studio:为用户提供大数据实时计算的数据中台 (yq.aliyun.com)
据介绍,Stream Studio基于阿里巴巴Flink实时计算引擎,支持DAG和SQL双模式开发流计算作业,并支持DAG与SQL互转;支持Function Studio在线开发UDF并一键发布;支持线上数据采集与本地调试;支持作业运维和智能诊断;极大地降低了流计算作业开发门槛,提高了开发效率。通过DataWorks已有的数据中台能力,可以适用于实时数仓、实时监控、实时分析、实时报表等实时性要求较高的大数据场景。
by @可耐芊小仙女 13小时前 分享 查看详情
Windows 使用之那些你还不知道操作 (mp.weixin.qq.com)
建议更换 win10 系统

可能很多朋友看到这个建议,心里很不爽,还很不服气,别急,且看官方给出的信息。
by @code小生 2019-05-19 09:58 分享 查看详情
基于TableStore的海量气象格点数据解决方案实战 (yq.aliyun.com)
气象数据是一类典型的大数据,具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量,每天产生的数据量常在几十TB到上百TB的规模,且在爆发性增长。如何存储和高效的查询这些气象数据越来越成为一个难题。
by @可耐芊小仙女 2019-05-16 15:20 分享 查看详情
药品监管系统架构揭秘:海量溯源数据存储与查询 (yq.aliyun.com)
在刚刚过去的2018年,“毒疫苗”事件再次触及了大众的敏感神经,因为十年前的“毒奶粉”事件还历历在目。我们急需创建一个全国性的药品(食品)监控追踪体系。与此同时,近年来随着国家对医药行业的大力支持,中国的医疗事业也出现了跨越式的发展,大量的新型药品上市,极大的丰富了患者和消费者的选择范围。大量的药品在市面上流通,产生了大量的状态数据,且这类数据在爆发式的增长。如何高效的存储和溯源药品状态数据已经成为一个行业难题。传统方案常常采用比如MySQL数据库分库分表的方式,但是这个方案在开发、运维、可扩展性都有不少弊端。
by @可耐芊小仙女 2019-05-16 15:19 分享 查看详情
对比MySQL,一文看透HBase的能力及使用场景 (yq.aliyun.com)
MySQL + HBase 是我们日常应用中常用的两个数据库,分别解决应用的在线事务问题和大数据场景的海量存储问题。本文内容适合初次理解HBase的读者,包括技术、功能及场景,也欢迎老司机们补充和温故。
by @可耐芊小仙女 2019-05-16 15:18 分享 查看详情
解决大数据难题 阿里云MaxCompute获科技大奖 (yq.aliyun.com)
MaxCompute是国内最早自研的大数据计算平台之一。十年前,阿里云创始人王坚博士带领团队研发该平台,主要应用于大规模数据处理,目前已拥有EB级别的数据存储能力、百PB级的单日计算能力。随着企业的数据规模快速增长,数据种类变得丰富多样,大数据计算的需求越来越高,然而诸如Hadoop、MapReduce等开源技术的大数据计算平台集群规模有限,在大规模数据处理效率、安全性等方面较低。
by @可耐芊小仙女 2019-05-15 16:15 分享 查看详情
实时大数据开发难、运维难、应用难?来,一站解决! (yq.aliyun.com)
2019年5月15日15时,阿里云DataWorks Stream Studio: 一站式流任务开发平台重磅发布,介绍实时计算任务开发的困难、问题和背景,引出使用Stream Studio可以大大加快实时任务的开发速度,降低开发和维护门槛,同时结合DataWorks的整体能力,能够实现实时数仓、实时监控、实时分析、实时大屏等实时大数据场景的一站式开发。
by @可耐芊小仙女 2019-05-15 16:11 分享 查看详情
OPPO数据中台之基石:基于Flink SQL构建实数据仓库 (mp.weixin.qq.com)
- OPPO 实时数仓的演进思路;

- 基于 Flink SQL 的扩展工作;

- 构建实时数仓的应用案例;

- 未来工作的思考和展望。
by @zhisheng_tian 2019-05-14 19:37 分享 查看详情
使用DataX同步MaxCompute数据到TableStore(原OTS)优化指南 (yq.aliyun.com)
现在越来越多的技术架构下会组合使用MaxCompute和TableStore,用MaxCompute作大数据分析,计算的结果会导出到TableStore提供在线访问。MaxCompute提供海量数据计算的能力,而TableStore提供海量数据高并发低延迟读写的能力。将 MaxCompute内数据导出至TableStore,目前可选的几种主要途径包括:
by @可耐芊小仙女 2019-05-14 16:07 分享 查看详情