海胜专访--MaxCompute 与大数据查询引擎的技术和故事 (yq.aliyun.com)

【简介】

在2019大数据技术公开课第一季《技术人生专访》中,阿里巴巴云计算平台高级技术专家苑海胜为大家分享了《MaxCompute 与大数据查询引擎的技术和故事》,主要介绍了MaxCompute与MPP Database的异同点,分布式系统上Join的实现,且详细讲解了MaxCompute针对Join和聚合引入的Hash Clustering Table和Range Clustering Table的优化。

点击查看全文 >>

@可耐芊小仙女 2019-07-29 15:44分享 / 0个评论
要不要再学学下面的文章?
专访阿里云资深技术专家黄省江:中国SaaS公司的成功之路 (yq.aliyun.com)
笔者采访中国SaaS厂商10多年,深感面对获客成本巨大、产品技术与功能成熟度不足、项目经营模式难以大规模复制、客户观念有待转变等诸多挑战,很多中国SaaS公司的经营状况都不容乐观。7月26日,阿里云在合作伙伴峰会期间正式发布SaaS生态战略,“该战略旨在破解中国SaaS公司发展之路上的拦路虎,成就更多SaaS独角兽。”负责阿里云SaaS生态战略的阿里云资深技术专家黄省江开门见山地指出。
by @可耐芊小仙女 2019-08-19 15:52 分享 查看详情
再也不怕数据丢失!阿里云RDS MySQL 8.0上线回收站功能 (yq.aliyun.com)
MySQL 在生产环境使用过程中,会伴随着开发和运维人员的误操作,比如 DROP TABLE / DATABASE,这类 DDL 语句不具有可操作的回滚特性,而导致数据丢失,AliSQL 8.0 新特性支持回收站功能(Recycle Bin),临时把删除清理的表转移到回收站,并保留可设置的时间,方便用户找回数据。为了方便,提供了 DBMS_RECYCLE package 作为管理接口。
by @可耐芊小仙女 2019-08-16 15:28 分享 查看详情
只要三步!阿里云DLA帮你处理海量JSON数据 (yq.aliyun.com)
您可能有大量应用程序产生的JSON数据,您可能需要对这些JSON数据进行整理,去除不想要的字段,或者只保留想要的字段,或者仅仅是进行数据查询。那么,利用阿里云Data Lake Analytics或许是目前能找到的云上最为便捷的达到这一目标的服务了。仅仅需要3步,就可以完成对海量JSON数据的处理,或者更为复杂的ETL流程。
by @可耐芊小仙女 2019-08-16 15:24 分享 查看详情
技术人自己的KPI (developer.aliyun.com)
在业务技术团队,有一个不好的趋势,就是团队越来越业务,越来越没有技术味道。每个人都在谈业务,技术大会上在谈业务,周会上在聊业务,周报里写的是业务项目......唯独少被谈及的是技术本身。此处并不是说业务不重要,而是说理解业务和把控业务需求是技术人员的base,而不是全部。
by @可耐芊小仙女 2019-08-15 15:57 分享 查看详情
PAI-STUDIO通过Tensorflow处理MaxCompute表数据 (yq.aliyun.com)
PAI-STUDIO在支持OSS数据源的基础上,增加了对MaxCompute表的数据支持。用户可以直接使用PAI-STUDIO的Tensorflow组件读写MaxCompute数据,本教程将提供完整数据和代码供大家测试。
by @可耐芊小仙女 2019-08-15 15:51 分享 查看详情
利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计 (yq.aliyun.com)
很多的企业用户选择MaxCompute按量付费模式构建自己的数据平台,利用MaxCompute按作业付费的计费模型,在获得高性能的同时避免"IDLE"状态的不必要资源费用支出,仅为实际使用付费。那么在一个规模比较大的公司,企业购买了MaxCompute服务,会支撑企业内部的不同部门、个人来使用MaxCompute来开展数据处理分析。为了更好地识别数据平台使用方的周期性花费成本,优化数据资源的使用,就有必要对作业的费用进行统计,从而确认不同人员或归属部门的作业数量、作业费用、作业时长、作业资源使用量等指标。基于这些指标进行成本分摊、作业优化等管理工作。
by @可耐芊小仙女 2019-08-14 16:40 分享 查看详情
只需一步,DLA开启TableStore多元索引查询加速! (yq.aliyun.com)
目前,Table Store的宽数据表结构中的列, 主要分成两部分:主键(所有主键都不可改,也不为空;其中第一主键是物理分区键),非主键列(可改可覆盖可为空,可有可无):
by @可耐芊小仙女 2019-08-09 15:25 分享 查看详情
悠星网络基于阿里云分析型数据库PostgreSQL版的数据实践 (yq.aliyun.com)
说到“大数据”,当下这个词很火,各行各业涉及到数据的,目前都在提大数据,提数据仓库,数据挖掘或者机器学习,但同时另外一个热门的名词也很火,那就是“云”。越来越多的企业都在搭建属于自己的云平台,也有一些会选择使用技术比较成熟的云商业化产品服务,比如阿里云的分析型数据库产品。本文将结合我们自己企业内部正在使用的阿里云产品分析型数据库PostgreSQL(下文都将称为AnalyticDB PostgreSQL版)来浅谈一下云业务场景下的数据实践。
by @可耐芊小仙女 2019-08-09 15:24 分享 查看详情
MaxCompute问答整理之7月 (yq.aliyun.com)
公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。DataWorks提供简单模式和标准模式两种工作空间模式。简单模式指一个DataWorks工作空间对应一个MaxCompute项目,无法设置开发环境和生产环境,只能进行简单的数据开发。标准模式指一个DataWorks工作空间对应两个MaxCompute项目,可以设置开发和生产环境,提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方文档或者是实操来加强认知。
by @可耐芊小仙女 2019-08-07 15:29 分享 查看详情
在MaxCompute中利用bitmap进行数据处理 (yq.aliyun.com)
很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。
by @可耐芊小仙女 2019-08-07 15:26 分享 查看详情