使用Data Lake Analytics从OSS清洗数据到AnalyticDB (yq.aliyun.com)

【简介】

必须是同一阿里云region的Data Lake Analytics(DLA)到AnalyticDB的才能进行清洗操作;
开通并初始化了该region的DLA服务;
开通并购买了AnalyticDB的实例,实例规模和数据清洗速度强相关,与AnalyticDB的实例资源规模基本成线性比例关系。

点击查看全文 >>

@可耐芊小仙女 2019-04-12 16:47分享 / 0个评论
要不要再学学下面的文章?
奇怪,免费版 IDEA 为什么不能使用 Tomcat 呢? (mp.weixin.qq.com)
IDEA有两大版本,一个是Ultimate版本,一个是Community版,ultimate是需要收费的,Community版是开源免费的。
by @code小生 2020-01-05 21:28 分享 查看详情
嗖的一下!只要一条命令,K8s监控数据一键写入时序数据库 (yq.aliyun.com)
这里的“快速”有多快呢?一条命令就能搞定!本文就介绍如何使用helm一键完成k8s监控数据到阿里云InfluxDB®的存储链路。对于helm的安装和使用,网上有很多资料,这里不赘述。有一点需要注意,虽然近期helm 3已经发布,但短期内不是所有的helm chart都兼容helm 3,比如社区的这个issue。本文依然使用helm 2来安装。
by @可耐芊小仙女 2019-12-30 15:50 分享 查看详情
在 Flink 算子中使用多线程如何保证不丢数据? (yq.aliyun.com)
笔者线上有一个 Flink 任务消费 Kafka 数据,将数据转换后,在 Flink 的 Sink 算子内部调用第三方 api 将数据上报到第三方的数据分析平台。这里使用批量同步 api,即:每 50 条数据请求一次第三方接口,可以通过批量 api 来提高请求效率。由于调用的外网接口,所以每次调用 api 比较耗时。假如批次大小为 50,且请求接口的平均响应时间为 50ms,使用同步 api,因此第一次请求响应以后才会发起第二次请求。
by @可耐芊小仙女 2019-12-30 15:48 分享 查看详情
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践 (yq.aliyun.com)
当今生活节奏日益加快,企业面对不断增加的海量信息,其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化,企业 App 中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验,甚至引发了用户流失。在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超 10 亿,接入上百种合规数据源。
by @可耐芊小仙女 2019-12-30 15:47 分享 查看详情
可闭环、可沉淀、可持续的企业级数据赋能体系 (yq.aliyun.com)
如何让属于企业自己的不同触点的数据快速形成一个闭环,沉淀串联这些零散的数据能够快速应用去赋能业务?这涉及到四个关键词,一是业务数据化,企业所有触点是否为真,是否被打通。第二是数据资产化,能否可以像管理资产一样很好地管理数据。第三是资产应用化,企业的资产能否有效应用?如何借助数据资产赋能业务,最后是应用价值化。
by @可耐芊小仙女 2019-12-25 16:15 分享 查看详情
Android新版本(8.0以上)使用Toast的那些坑 (mp.weixin.qq.com)
查看Toast源码后发现,Toast显示要通过INotificationManager类来实现,而当通知禁用后,调用此类会返回异常,所以导致通知不显示,源码如下:
by @code小生 2019-12-25 12:57 分享 查看详情
Serverless 实战——使用 Rendertron 搭建 Headless Chrome 渲染解决方案 (yq.aliyun.com)
传统的 Web 页面,通常是服务端渲染的,而随着 SPA(Single-Page Application) 尤其是 React、Vue、Angular 为代表的前端框架的流行,越来越多的 Web App 使用的是客户端渲染。使用客户端渲染有着诸多优势,比如节省后端资源、局部刷新、前后端分离等等,但也带来了一些挑战,比如本文要解决的 SEO 问题。
by @可耐芊小仙女 2019-12-24 15:27 分享 查看详情
阿里风控大脑关于大数据应用的探索与实践 (yq.aliyun.com)
阿里的风控主要分为两大块。一块是金融领域,主要业务是支付宝,另一块是非金融领域,如新零售、高德、大文娱等,我们负责的主要是非金融领域。阿里风控大脑的含义较为丰富,可以有不同的解读,但基本上代表了几个方向。首先,阿里风控大脑是“大中台小前台”战略,由于阿里风控管的风险业务很多,领域非常杂,所以允许不同的领域、不同的风控场景可以有自己独特的交互,有自己的console,但是用到的底层引擎必须是中心化的,由风控引擎做统一计算和处理。第二,阿里风控大脑代表高智能,后续会有深度学习和无监督学习模型大量上线,防控策略及防控方式都会更加智能化。如下图所示,右侧是目前阿里风控覆盖的主要业务和防控的风控场景,如黑客攻击、消费者保护、商家保护等。左侧是阿里风控2019年双11的部分数据,保护了约388亿消费者的操作行为,同时挡住了约22亿次恶意攻击。
by @可耐芊小仙女 2019-12-23 16:13 分享 查看详情
阿里经济体大数据平台的建设与思考 (yq.aliyun.com)
首先从双11说起,双11已经成为阿里巴巴最大的单日促销活动。双11活动可能对于消费者而言只是一天而已,但是对于阿里巴巴和数百万商家而言,却是一个非常长线的工作。站在阿里巴巴的角度来看双11,其实无论是从业务线还是技术线,背后都存在着很多的思考。
by @可耐芊小仙女 2019-12-20 16:00 分享 查看详情
在 Cloudera Data Flow 上运行你的第一个 Flink 例子 (yq.aliyun.com)
Cloudera Data Flow(CDF) 作为 Cloudera 一个独立的产品单元,围绕着实时数据采集,实时数据处理和实时数据分析有多个不同的功能模块
by @可耐芊小仙女 2019-12-19 16:46 分享 查看详情