为什么说流处理即未来? (mp.weixin.qq.com)
Flink电子月刊第二季《重新定义计算:Apache Flink 实践》正式发布了,该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和 Flink Forward China 峰会上的精彩演讲内容,希望对大家有所帮助。
by @zhisheng_tian 2019-04-11 14:16 分享 查看详情
从诗词大会到图解 ElasticSearch 原理解析 (mp.weixin.qq.com)
小史学完了elasticsearch,在笔记本上写下了如下记录:

1、反向索引又叫倒排索引,是根据文章内容中的关键字建立索引

2、搜索引擎原理就是建立反向索引

3、elasticsearch在lucene的基础上进行封装,实现了分布式搜索引擎

4、elasticsearch中的索引、类型和文档的概念比较重要,类似于mysql中的数据库、表和行

5、elasticsearch也是master-slave架构,也实现了数据的分片和备份

6、elasticsearch一个典型应用就是elk日志分析系统
by @zhisheng_tian 2019-04-11 14:16 分享 查看详情
《Flink 源码解析》—— 源码编译运行 (mp.weixin.qq.com)
之前自己本地 clone 了 Flink 的源码,编译过,然后 share 到了 GitHub 上去了,自己也写了一些源码的中文注释,并且 push 到了 GitHub 上去了。这几天阿里开源了宣传已久的 Blink,结果我那个分支不能够继续 pull 下新的代码,再加上自己对 Flink 研究了也有点时间了,所以打算将这两个东西对比着来看,这样可能会学到不少更多东西,因为 Blink 是另外一个分支,所以自己干脆再重新 fork 了一份,拉到本地来看源码。
by @zhisheng_tian 2019-04-11 14:15 分享 查看详情
大数据“重磅炸弹”——实时计算框架 Flink (mp.weixin.qq.com)
Flink 多篇博客和问题以及资料分享,《从1到100深入学习Flink》源码学习这个系列文章,《从0到1学习Flink》的案例文章也会优先在知识星球更新,让大家先通过一些 demo 学习 Flink,再去深入源码学习
by @zhisheng_tian 2019-04-03 19:38 分享 查看详情
实战 | canal 实现Mysql到Elasticsearch实时增量同步 (mp.weixin.qq.com)
题记
关系型数据库Mysql/Oracle增量同步Elasticsearch是持续关注的问题,也是社区、QQ群等讨论最多的问题之一。 问题包含但不限于: 1、Mysql如何同步到Elasticsearch? 2、Logstash、kafka_connector、canal选型有什么不同,如何取舍? 3、能实现同步增删改查吗? ..... 本文给出答案。
by @zhisheng_tian 2019-04-01 21:57 分享 查看详情
JVM面试问题系列:7种JVM垃圾收集器特点,优劣势、及使用场景! (mp.weixin.qq.com)
一、常见垃圾收集器

现在常见的垃圾收集器有如下几种:

新生代收集器:

Serial

ParNew

Parallel Scavenge

老年代收集器:

Serial Old

CMS

Parallel Old
by @zhisheng_tian 2019-04-01 21:56 分享 查看详情
JVM面试问题系列:判断对象是否已死和四种垃圾回收算法总结 (mp.weixin.qq.com)
判断对象是否已死

判断对象是否已死就是找出哪些对象是已经死掉的,以后不会再用到的,就像地上有废纸、饮料瓶和百元大钞,扫地前要先判断出地上废纸和饮料瓶是垃圾,百元大钞不是垃圾。判断对象是否已死有引用计数算法和可达性分析算法。
by @zhisheng_tian 2019-04-01 21:55 分享 查看详情
JVM面试问题系列:JVM 配置常用参数和常用 GC 调优策略 (mp.weixin.qq.com)
,目前主要有串行、并行和并发三种,对于大内存的应用而言,串行的性能太低,因此使用到的主要是并行和并发两种。并行和并发 GC 的策略通过 UseParallelGC 和 UseConcMarkSweepGC 来指定,还有一些细节的配置参数用来配置策略的执行方式。例如:XX:ParallelGCThreads, XX:CMSInitiatingOccupancyFraction 等。 通常:Young 区对象回收只可选择并行(耗时间),Old 区选择并发(耗 CPU)
by @zhisheng_tian 2019-04-01 21:55 分享 查看详情
《从0到1学习Flink》—— Flink 读取 Kafka 数据写入到 RabbitMQ (mp.weixin.qq.com)
之前有文章 《从0到1学习Flink》—— Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去,当然我们常用的消息队列可不止这一种,还有 RocketMQ、RabbitMQ 等,刚好 Flink 也支持将数据写入到 RabbitMQ,所以今天我们就来写篇文章讲讲如何将 Flink 处理后的数据写入到 RabbitMQ。
by @zhisheng_tian 2019-04-01 21:54 分享 查看详情
消息中间件Kafka与其他的相比之下谁更diao? (mp.weixin.qq.com)
在 IM 这种讲究高并发、高消息吞吐的互联网场景下,MQ 消息中间件是个很重要的基础设施,它在 IM 系统的服务端架构中担当消息中转、消息削峰、消息交换异步化等角色。
by @zhisheng_tian 2019-03-20 12:28 分享 查看详情
干货 | Elasticsearch 6个不明显但很重要的注意事项 (mp.weixin.qq.com)
Elasticsearch是被Netflix,微软,eBay,Facebook等Top N 顶级公司使用的搜索引擎。它很容易使用,但从长远来看相对难掌握。在本文中,我们分享了在系统中使用Elasticsearch六个不太明显但非常值得了解的注意事项。
by @zhisheng_tian 2019-03-19 13:30 分享 查看详情
史上最全Kafka面试题全套整理 (mp.weixin.qq.com)
之前发了几篇 Kafka 的文章,发现大家还是挺喜欢的,今天干脆再发一篇厮大整理的!之前错过的 Kafka 相关文章请看这里:
by @zhisheng_tian 2019-03-16 20:18 分享 查看详情
面试|图解 kafka 的高可用机制 (mp.weixin.qq.com)
对于一个复杂的分布式系统,如果没有丰富的经验和牛逼的架构能力,很难把系统做得简单易维护,我们都知道,一个软件的生命周期中,后期维护占了70%,所以系统的可维护性是极其重要的, kafka 能成为大数据领域的事实标准,很大原因是因为运维起来很方便简单,今天我们来看下 kafka 是怎么来简化运维操作的。
by @zhisheng_tian 2019-03-13 23:06 分享 查看详情
分享一波Kafka面试题&答案 (mp.weixin.qq.com)
之前已经分享了好几篇关于 Kafka 的文章,从基本概念和使用到高可用机制解析到最佳实践。今天分享几个 Kafka 的面试题,这些面试题是大数据工程师在面试中经常问到的一些问题,在此整理一下,分享给大家。
by @zhisheng_tian 2019-03-11 22:58 分享 查看详情
干货 | Elasticsearch方案选型必须了解的10件事! (mp.weixin.qq.com)
Elasticsearch 目前被广泛使用,也越来越受到欢迎。一些传统的行业甚至婚庆公司都已经在使用Elasticsearch。
人们喜欢Elasticsearch,不单单因为它的典型特征:
by @zhisheng_tian 2019-03-11 22:06 分享 查看详情
假如我是面试官,我会这样虐你 (mp.weixin.qq.com)
又是金三银四的时候,我希望这份面试题能够祝你一臂之力!

自我和项目相关
1、自我介绍

2、你觉得自己的优点是?你觉得自己有啥缺点?
by @zhisheng_tian 2019-03-07 23:47 分享 查看详情
阿里巴巴开源的 Blink 实时计算框架真香 (www.54tianzhisheng.cn)
Blink 开源了有一段时间了,竟然没发现有人写相关的博客,其实我已经在我的知识星球里开始写了,今天来看看 Blink 为什么香?

我们先看看 Blink 黑色版本:
by @zhisheng_tian 2019-03-03 11:31 分享 查看详情
《从0到1学习Flink》—— Flink 读取 Kafka 数据批量写入到 MySQL (www.54tianzhisheng.cn)
之前其实在 《从0到1学习Flink》—— 如何自定义 Data Sink ? 文章中其实已经写了点将数据写入到 MySQL,但是一些配置化的东西当时是写死的,不能够通用,最近知识星球里有朋友叫我: 写个从 kafka 中读取数据,经过 Flink 做个预聚合,然后创建数据库连接池将数据批量写入到 mysql 的例子。
by @zhisheng_tian 2019-03-03 11:27 分享 查看详情
漫谈数据质量监控 (mp.weixin.qq.com)
本篇分享一些和数据质量监控相关的内容。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。
by @zhisheng_tian 2019-03-03 11:26 分享 查看详情
生产环境 Kafka 消费速度巨慢该咋办? (mp.weixin.qq.com)
随着业务的发展,项目组有大量的任务需要处理。

这些任务需要主要分为两种类型:

通过接口调用, 后台执行任务

通过调度系统定时执行
by @zhisheng_tian 2019-02-20 20:13 分享 查看详情