Data Lake Analytics + OSS数据文件格式处理大全 (yq.aliyun.com)

【简介】

Data Lake Analytics是Serverless化的云上交互式查询分析服务。用户可以使用标准的SQL语句,对存储在OSS、TableStore上的数据无需移动,直接进行查询分析。

目前该产品已经正式登陆阿里云,欢迎大家申请试用,体验更便捷的数据分析服务。
请参考https://help.aliyun.com/document_detail/70386.html 进行产品开通服务申请。

点击查看全文 >>

@可耐芊小仙女 2019-02-28 17:08分享 / 0个评论
要不要再学学下面的文章?
BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览 (yq.aliyun.com)
越来越多的数据库会做云原生(CloudNative),会不断利用新的硬件及云本身的优势打造CloudNative数据库,国内以阿里云的Cloud HBase、POLARDB为代表,此块文章会有一定的引述,但不是本文的重点。
by @可耐芊小仙女 2019-05-22 15:09 分享 查看详情
etcd 在超大规模数据场景下的性能优化 (yq.aliyun.com)
etcd是一个开源的分布式的kv存储系统, 最近刚被cncf列为沙箱孵化项目。etcd的应用场景很广,很多地方都用到了它,例如kubernetes就用它作为集群内部存储元信息的账本。本篇文章首先介绍我们优化的背景,为什么我们要进行优化, 之后介绍etcd内部存储系统的工作方式,之后介绍本次具体的实现方式及最后的优化效果。
by @可耐芊小仙女 2019-05-22 15:08 分享 查看详情
【阿里云新品发布·周刊】第9期:实时大数据开发难、运维难、应用难?来,一站解决! (yq.aliyun.com)
2019年5月15日15时,阿里云DataWorks Stream Studio: 一站式流任务开发平台重磅发布,介绍实时计算任务开发的困难、问题和背景,引出使用Stream Studio可以大大加快实时任务的开发速度,降低开发和维护门槛,同时结合DataWorks的整体能力,能够实现实时数仓、实时监控、实时分析、实时大屏等实时大数据场景的一站式开发。
by @可耐芊小仙女 2019-05-20 14:56 分享 查看详情
阿里云DataWorks正式推出Stream Studio:为用户提供大数据实时计算的数据中台 (yq.aliyun.com)
据介绍,Stream Studio基于阿里巴巴Flink实时计算引擎,支持DAG和SQL双模式开发流计算作业,并支持DAG与SQL互转;支持Function Studio在线开发UDF并一键发布;支持线上数据采集与本地调试;支持作业运维和智能诊断;极大地降低了流计算作业开发门槛,提高了开发效率。通过DataWorks已有的数据中台能力,可以适用于实时数仓、实时监控、实时分析、实时报表等实时性要求较高的大数据场景。
by @可耐芊小仙女 2019-05-20 14:54 分享 查看详情
基于TableStore的海量气象格点数据解决方案实战 (yq.aliyun.com)
气象数据是一类典型的大数据,具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量,每天产生的数据量常在几十TB到上百TB的规模,且在爆发性增长。如何存储和高效的查询这些气象数据越来越成为一个难题。
by @可耐芊小仙女 2019-05-16 15:20 分享 查看详情
药品监管系统架构揭秘:海量溯源数据存储与查询 (yq.aliyun.com)
在刚刚过去的2018年,“毒疫苗”事件再次触及了大众的敏感神经,因为十年前的“毒奶粉”事件还历历在目。我们急需创建一个全国性的药品(食品)监控追踪体系。与此同时,近年来随着国家对医药行业的大力支持,中国的医疗事业也出现了跨越式的发展,大量的新型药品上市,极大的丰富了患者和消费者的选择范围。大量的药品在市面上流通,产生了大量的状态数据,且这类数据在爆发式的增长。如何高效的存储和溯源药品状态数据已经成为一个行业难题。传统方案常常采用比如MySQL数据库分库分表的方式,但是这个方案在开发、运维、可扩展性都有不少弊端。
by @可耐芊小仙女 2019-05-16 15:19 分享 查看详情
解决大数据难题 阿里云MaxCompute获科技大奖 (yq.aliyun.com)
MaxCompute是国内最早自研的大数据计算平台之一。十年前,阿里云创始人王坚博士带领团队研发该平台,主要应用于大规模数据处理,目前已拥有EB级别的数据存储能力、百PB级的单日计算能力。随着企业的数据规模快速增长,数据种类变得丰富多样,大数据计算的需求越来越高,然而诸如Hadoop、MapReduce等开源技术的大数据计算平台集群规模有限,在大规模数据处理效率、安全性等方面较低。
by @可耐芊小仙女 2019-05-15 16:15 分享 查看详情
实时大数据开发难、运维难、应用难?来,一站解决! (yq.aliyun.com)
2019年5月15日15时,阿里云DataWorks Stream Studio: 一站式流任务开发平台重磅发布,介绍实时计算任务开发的困难、问题和背景,引出使用Stream Studio可以大大加快实时任务的开发速度,降低开发和维护门槛,同时结合DataWorks的整体能力,能够实现实时数仓、实时监控、实时分析、实时大屏等实时大数据场景的一站式开发。
by @可耐芊小仙女 2019-05-15 16:11 分享 查看详情
OPPO数据中台之基石:基于Flink SQL构建实数据仓库 (mp.weixin.qq.com)
- OPPO 实时数仓的演进思路;

- 基于 Flink SQL 的扩展工作;

- 构建实时数仓的应用案例;

- 未来工作的思考和展望。
by @zhisheng_tian 2019-05-14 19:37 分享 查看详情
使用DataX同步MaxCompute数据到TableStore(原OTS)优化指南 (yq.aliyun.com)
现在越来越多的技术架构下会组合使用MaxCompute和TableStore,用MaxCompute作大数据分析,计算的结果会导出到TableStore提供在线访问。MaxCompute提供海量数据计算的能力,而TableStore提供海量数据高并发低延迟读写的能力。将 MaxCompute内数据导出至TableStore,目前可选的几种主要途径包括:
by @可耐芊小仙女 2019-05-14 16:07 分享 查看详情