Flink Batch SQL 1.10 实践 (yq.aliyun.com)

【简介】

Flink作为流批统一的计算框架,在1.10中完成了大量batch相关的增强与改进。1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫之前Dataset的羸弱,从功能和性能上都有大幅改进,以下我从架构、外部系统集成、实践三个方面进行阐述。

点击查看全文 >>

@可耐芊小仙女 2019-12-18 15:29分享 / 0个评论
要不要再学学下面的文章?
如何去写一手好 SQL ? (mp.weixin.qq.com)
作为一名后端开发人员,务必精通作为存储核心的MySQL或SQL Server,也要积极关注NoSQL数据库,他们已经足够成熟并被广泛采用,能解决特定场景下的性能瓶颈。
by @code小生 2020-01-12 18:43 分享 查看详情
在 Flink 算子中使用多线程如何保证不丢数据? (yq.aliyun.com)
笔者线上有一个 Flink 任务消费 Kafka 数据,将数据转换后,在 Flink 的 Sink 算子内部调用第三方 api 将数据上报到第三方的数据分析平台。这里使用批量同步 api,即:每 50 条数据请求一次第三方接口,可以通过批量 api 来提高请求效率。由于调用的外网接口,所以每次调用 api 比较耗时。假如批次大小为 50,且请求接口的平均响应时间为 50ms,使用同步 api,因此第一次请求响应以后才会发起第二次请求。
by @可耐芊小仙女 2019-12-30 15:48 分享 查看详情
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践 (yq.aliyun.com)
当今生活节奏日益加快,企业面对不断增加的海量信息,其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化,企业 App 中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验,甚至引发了用户流失。在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超 10 亿,接入上百种合规数据源。
by @可耐芊小仙女 2019-12-30 15:47 分享 查看详情
从零开始入门 K8s | etcd 性能优化实践 (yq.aliyun.com)
etcd 是容器云平台用于存储关键元信息的组件。阿里巴巴使用 etcd 已经有 3 年的历史, 在今年 双11 过程中它又一次承担了关键角色,接受了 双11 大压力的检验。本文作者从 etcd 性能背景出发,带领我们了解了 etcd server 端性能优化及 etcd client 使用最佳实践,希望能够为大家运行一个稳定而且高效的 etcd 集群提供帮助。
by @可耐芊小仙女 2019-12-24 15:26 分享 查看详情
State Processor API:如何读取,写入和修改 Flink 应用程序的状态 (yq.aliyun.com)
过去无论您是在生产中使用,还是调研Apache Flink,估计您总是会问这样一个问题:我该如何访问和更新Flink保存点中保存的state?不用再询问了,Apache Flink 1.9.0引入了状态处理器API,它是基于DataSet API的强大扩展,允许读取,写入和修改Flink的保存点和检查点中的状态。
by @可耐芊小仙女 2019-12-24 15:25 分享 查看详情
Flink SQL 如何实现数据流的 Join? (yq.aliyun.com)
无论在 OLAP 还是 OLTP 领域,Join 都是业务常会涉及到且优化规则比较复杂的 SQL 语句。对于离线计算而言,经过数据库领域多年的积累,Join 语义以及实现已经十分成熟,然而对于近年来刚兴起的 Streaming SQL 来说 Join 却处于刚起步的状态。其中最为关键的问题在于 Join 的实现依赖于缓存整个数据集,而 Streaming SQL Join 的对象却是无限的数据流,内存压力和计算效率在长期运行来说都是不可避免的问题。
by @可耐芊小仙女 2019-12-24 15:23 分享 查看详情
仅 1 年 GitHub Star 数翻倍,Flink 做了什么? (yq.aliyun.com)
Apache Flink 是公认的新一代开源大数据计算引擎,其流水线运行系统既可以执行批处理程序也可以执行流处理程序。目前,Flink 已成为 Apache 基金会和 GitHub 社区最为活跃的项目之一。在 Flink Forward Asia 2019 上,阿里巴巴资深技术专家,实时计算负责人王峰 (莫问)总结了 2019 年 Flink 在中国的发展和演进,阿里对 Flink 社区的贡献以及未来 Flink 的最新发展方向。
by @可耐芊小仙女 2019-12-23 16:16 分享 查看详情
阿里风控大脑关于大数据应用的探索与实践 (yq.aliyun.com)
阿里的风控主要分为两大块。一块是金融领域,主要业务是支付宝,另一块是非金融领域,如新零售、高德、大文娱等,我们负责的主要是非金融领域。阿里风控大脑的含义较为丰富,可以有不同的解读,但基本上代表了几个方向。首先,阿里风控大脑是“大中台小前台”战略,由于阿里风控管的风险业务很多,领域非常杂,所以允许不同的领域、不同的风控场景可以有自己独特的交互,有自己的console,但是用到的底层引擎必须是中心化的,由风控引擎做统一计算和处理。第二,阿里风控大脑代表高智能,后续会有深度学习和无监督学习模型大量上线,防控策略及防控方式都会更加智能化。如下图所示,右侧是目前阿里风控覆盖的主要业务和防控的风控场景,如黑客攻击、消费者保护、商家保护等。左侧是阿里风控2019年双11的部分数据,保护了约388亿消费者的操作行为,同时挡住了约22亿次恶意攻击。
by @可耐芊小仙女 2019-12-23 16:13 分享 查看详情
Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频) (yq.aliyun.com)
如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数据分析平台。
by @可耐芊小仙女 2019-12-23 16:11 分享 查看详情
商用Android 工程化实践,摆脱小作坊式开发 (mp.weixin.qq.com)
商用Android 工程化实践,摆脱小作坊式开发。如何完成作坊到工厂的转变?把上面那些技术全都用一遍吗?哪怕你说插件化 Kotlin 都不适合我们,我找出适合我们的技术都用上,就是大工厂了吗?
by @SELECT-FROMALL 2019-12-23 08:35 分享 查看详情