《从0到1学习Flink》—— Flink Data transformation(转换) (www.54tianzhisheng.cn)

【简介】

Flink 应用程序结构就是如上图所示:

1、Source: 数据源,Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。自定义的 source 常见的有 Apache kafka、Amazon Kinesis Streams、RabbitMQ、Twitter Streaming API、Apache NiFi 等,当然你也可以定义自己的 source。

2、Transformation:数据转换的各种操作,有 Map / FlatMap / Filter / KeyBy / Reduce / Fold / Aggregations / Window / WindowAll / Union / Window join / Split / Select / Project 等,操作很多,可以将数据转换计算成你想要的数据。

点击查看全文 >>

@zhisheng_tian 2019-01-10 23:54分享 / 0个评论
赞过的人: 技术头条 zhisheng_tian
要不要再学学下面的文章?
Flink状态管理和容错机制介绍 (mp.weixin.qq.com)
本文主要内容如下:

有状态的流数据处理;

Flink中的状态接口;

状态管理和容错机制实现;

阿里相关工作介绍;
by @zhisheng_tian 2019-05-21 20:44 分享 查看详情
流计算框架 Flink 与 Storm 的性能对比 (mp.weixin.qq.com)
Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。
by @zhisheng_tian 2019-05-21 20:43 分享 查看详情
OPPO数据中台之基石:基于Flink SQL构建实数据仓库 (mp.weixin.qq.com)
- OPPO 实时数仓的演进思路;

- 基于 Flink SQL 的扩展工作;

- 构建实时数仓的应用案例;

- 未来工作的思考和展望。
by @zhisheng_tian 2019-05-14 19:37 分享 查看详情
Data V数据可视化:一屏在手万物可视,企业如何在数据浪潮中脱颖而出? (yq.aliyun.com)
数据可视化是指将数据以视觉的形式来呈现,以帮助人们了解这些数据的意义。人类大脑对视觉信息的处理优于对文本的处理,因此使用图表、图形和设计元素把数据进行可视化,可以帮助人们更容易地解释数据模式、趋势、统计规律和数据相关性。
by @可耐芊小仙女 2019-05-05 16:25 分享 查看详情
使用Data Lake Analytics读/写RDS数据 (yq.aliyun.com)
Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于RDS(目前支持 MySQL , SQLServer , Postgres 引擎)的支持, 这篇教程带你玩转 DLA 的 RDS 支持。我们文章中会以 MySQL 的介绍为主,最后会简要介绍下 SQLServer 与 Postgres 的一些不同点、需要注意的地方。
by @可耐芊小仙女 2019-04-12 16:53 分享 查看详情
使用Data Lake Analytics从OSS清洗数据到AnalyticDB (yq.aliyun.com)
必须是同一阿里云region的Data Lake Analytics(DLA)到AnalyticDB的才能进行清洗操作;
开通并初始化了该region的DLA服务;
开通并购买了AnalyticDB的实例,实例规模和数据清洗速度强相关,与AnalyticDB的实例资源规模基本成线性比例关系。
by @可耐芊小仙女 2019-04-12 16:47 分享 查看详情
大数据“重磅炸弹”——实时计算框架 Flink (mp.weixin.qq.com)
Flink 多篇博客和问题以及资料分享,《从1到100深入学习Flink》源码学习这个系列文章,《从0到1学习Flink》的案例文章也会优先在知识星球更新,让大家先通过一些 demo 学习 Flink,再去深入源码学习
by @zhisheng_tian 2019-04-03 19:38 分享 查看详情
《从0到1学习Flink》—— Flink 读取 Kafka 数据写入到 RabbitMQ (mp.weixin.qq.com)
之前有文章 《从0到1学习Flink》—— Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去,当然我们常用的消息队列可不止这一种,还有 RocketMQ、RabbitMQ 等,刚好 Flink 也支持将数据写入到 RabbitMQ,所以今天我们就来写篇文章讲讲如何将 Flink 处理后的数据写入到 RabbitMQ。
by @zhisheng_tian 2019-04-01 21:54 分享 查看详情
如何使用Data Lake Analytics创建分区表 (yq.aliyun.com)
Data Lake Analytics (后文简称DLA)提供了无服务化的大数据分析服务,帮助用户通过标准的SQL语句直接对存储在OSS、TableStore上的数据进行查询分析。

在关系型数据库中,用户可以对大数据量的表进行分区,提高查询的性能。同样在DLA中,用户可以使用分区表将数据进行细化,达到缩短查询响应时间的目的。

本文将以OSS数据源为例,详细介绍如何在DLA中创建和使用分区表。
by @可耐芊小仙女 2019-03-29 16:35 分享 查看详情
如何在Data Lake Analytics中使用临时表 (yq.aliyun.com)
Data Lake Analytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品,可以对存储在OSS,OTS上的数据进行查询分析。相较于传统的数据分析产品,用户无需将数据重新加载至DLA,只需在DLA中创建一张与数据源关联的表,不仅简化了分析过程,还节约了存储成本,是做大数据分析的不二之选。
by @可耐芊小仙女 2019-03-29 16:30 分享 查看详情