在MaxCompute中利用bitmap进行数据处理 (yq.aliyun.com)

【简介】

很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。

点击查看全文 >>

@可耐芊小仙女 2019-08-07 15:26分享 / 0个评论
赞过的人: IT技术博客大学习
要不要再学学下面的文章?
开发函数计算的正确姿势 —— 使用 ROS 进行资源编排 (yq.aliyun.com)
函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传。函数计算准备计算资源,并以弹性伸缩的方式运行用户代码,而用户只需根据实际代码运行所消耗的资源进行付费。Fun: Fun 是一个用于支持 Serverless 应用部署的工具,能帮助您便捷地管理函数计算、API 网关、日志服务等资源。它通过一个资源配置文件(template.yml),协助您进行开发、构建、部署操作。ROS: 阿里云资源编排服务(ROS)助您简化云计算资源的管理。您可以遵循ROS定义的模板规范,在模板中定义所需云计算资源的集合及资源间依赖关系。ROS自动完成所有资源的创建和配置,实现自动化部署和运维。
by @可耐芊小仙女 2019-09-24 16:25 分享 查看详情
阿里云MaxCompute 2019-8月刊 (yq.aliyun.com)
MaxCompute存储计费于9月1日进行降价,原5个阶梯价调整为3个阶梯价,同时阶梯单价向下调整。计量计费方式不变,以项目为单位出账,小时级别采集每个项目空间下当前的存储使用情况,计算当天的存储平均值再乘以阶梯单价得出单项目账单。新的阶梯价,依然是存储量越高单价越低。当数据存放集中且数据量也较大的情况下,新价格统计的费用较之原价可下降达30%。
by @可耐芊小仙女 2019-09-12 17:55 分享 查看详情
MaxCompute问答整理之8月 (yq.aliyun.com)
本文是基于对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。问题一、通过数据源数据增量同步后,如何查看某一条数据具体被同步到MaxCompute中的时间?不支持,查看不了,可以看表元数据的LastModifiedTime时间,但具体某个记录看不到时间。
by @可耐芊小仙女 2019-09-06 16:11 分享 查看详情
威胁快报|Solr dataimport成挖矿团伙新型利用方式 (yq.aliyun.com)
近日,阿里云安全团队监测到挖矿团伙利用solr dataimport RCE(CVE-2019-0193)作为新的攻击方式对云上主机进行攻击,攻击成功后下载门罗币挖矿程序进行牟利。该团伙使用的恶意脚本与之前报道的“威胁预警 | watchbog挖矿蠕虫升级,利用Bluekeep RDP等多个漏洞蓄势待发”文章所提团伙使用的基本一致,因此基本认为是同一团伙所为。
by @可耐芊小仙女 2019-09-03 16:13 分享 查看详情
MaxCompute 最新特性介绍 | 2019大数据技术公开课第三季 (yq.aliyun.com)
距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用。那么,近期MaxCompute究竟还有哪些新特性呢?本文就为大家揭晓答案。
by @可耐芊小仙女 2019-08-27 16:10 分享 查看详情
唱吧基于 MaxCompute 的大数据之路 (yq.aliyun.com)
使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。初期这套基于开源组件的体系有力支撑了数据统计、业务报表、风控等业务需求。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板。同时期,唱吧开始尝试阿里云提供的ECS、OSS等云服务,大数据部门也开始使用 MaxCompute来弥补自建体系的不足。
by @可耐芊小仙女 2019-08-27 16:08 分享 查看详情
PAI-STUDIO通过Tensorflow处理MaxCompute表数据 (yq.aliyun.com)
PAI-STUDIO在支持OSS数据源的基础上,增加了对MaxCompute表的数据支持。用户可以直接使用PAI-STUDIO的Tensorflow组件读写MaxCompute数据,本教程将提供完整数据和代码供大家测试。
by @可耐芊小仙女 2019-08-15 15:51 分享 查看详情
利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计 (yq.aliyun.com)
很多的企业用户选择MaxCompute按量付费模式构建自己的数据平台,利用MaxCompute按作业付费的计费模型,在获得高性能的同时避免"IDLE"状态的不必要资源费用支出,仅为实际使用付费。那么在一个规模比较大的公司,企业购买了MaxCompute服务,会支撑企业内部的不同部门、个人来使用MaxCompute来开展数据处理分析。为了更好地识别数据平台使用方的周期性花费成本,优化数据资源的使用,就有必要对作业的费用进行统计,从而确认不同人员或归属部门的作业数量、作业费用、作业时长、作业资源使用量等指标。基于这些指标进行成本分摊、作业优化等管理工作。
by @可耐芊小仙女 2019-08-14 16:40 分享 查看详情
利用 Android Keystore 系统 加密存储和解密敏感信息 (mp.weixin.qq.com)
利用 Android Keystore 系统,您可以在容器中存储加密密钥,从而提高从设备中提取密钥的难度。在密钥进入 Keystore 后,可以将它们用于加密操作,而密钥材料仍不可导出。此外,它提供了密钥使用的时间和方式限制措施,例如要求进行用户身份验证才能使用密钥,或者限制为只能在某些加密模式中使用。
by @code小生 2019-08-11 21:28 分享 查看详情
MaxCompute问答整理之7月 (yq.aliyun.com)
公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。DataWorks提供简单模式和标准模式两种工作空间模式。简单模式指一个DataWorks工作空间对应一个MaxCompute项目,无法设置开发环境和生产环境,只能进行简单的数据开发。标准模式指一个DataWorks工作空间对应两个MaxCompute项目,可以设置开发和生产环境,提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方文档或者是实操来加强认知。
by @可耐芊小仙女 2019-08-07 15:29 分享 查看详情