如何使用 Flink 每天实时处理百亿条日志? (mp.weixin.qq.com)
Sherlock.IO 是 eBay 现有的监控平台,每天要处理上百亿条日志、事件和指标。Flink Streaming job 实时处理系统用于处理其中的日志和事件。
by @zhisheng_blog 2019-09-22 13:38 查看详情
基于 Flink 实现的商品实时推荐系统(附源码) (mp.weixin.qq.com)
之前一直给大家推荐的是关于 Flink 的介绍和知识点,以及关于 Flink 里面使用这些知识点的一些简单的 demo,地址在:https://github.com/zhisheng17/flink-learning 。总的来说,现在还挺缺这种真正实战的项目分享出来,尤其是把源代码分享出来的,近期我在 GitHub 观察到一个不错的 Flink 项目,然后也和作者交流了下,于是在这里做一个分享。所以,那些平时问我有没有 Flink 项目的可以看过来了。地址在 :
by @zhisheng_blog 2019-09-22 13:38 查看详情
一文让你彻底了解大数据实时计算引擎 Flink (mp.weixin.qq.com)
在上一篇文章 你公司到底需不需要引入实时计算引擎? 中我讲解了日常中常见的实时需求,然后分析了这些需求的实现方式,接着对比了实时计算和离线计算。随着这些年大数据的飞速发展,也出现了不少计算的框架(Hadoop、Storm、Spark、Flink)。在网上有人将大数据计算引擎的发展分为四个阶段。
by @zhisheng_blog 2019-09-22 13:37 查看详情
Java 线程池 ThreadPoolExecutor 八种拒绝策略浅析 (mp.weixin.qq.com)
谈到 Java 的线程池最熟悉的莫过于 ExecutorService 接口了,jdk1.5 新增的 java.util.concurrent 包下的这个 api,大大的简化了多线程代码的开发。而不论你用 FixedThreadPool 还是 CachedThreadPool 其背后实现都是ThreadPoolExecutor。ThreadPoolExecutor 是一个典型的缓存池化设计的产物,因为池子有大小,当池子体积不够承载时,就涉及到拒绝策略。JDK 中已经预设了 4 种线程池拒绝策略,下面结合场景详细聊聊这些策略的使用场景,以及我们还能扩展哪些拒绝策略。
by @zhisheng_blog 2019-09-22 13:36 查看详情
Flink 从0到1学习 —— 如何使用 Side Output 来分流? (mp.weixin.qq.com)
之前在 Flink 从0到1学习—— Flink 不可以连续 Split(分流)? 讲过 Flink 使用连续的 Split 会有问题,当时提供了几种解决方法,有一种方法就是使用 Side Output 来进行,当时留了个余念,那么就在这篇文章详细的讲一波,教大家如何使用 Side Output 来分流。
by @zhisheng_blog 2019-09-22 13:35 查看详情
死磕 Java 集合之 HashMap 源码分析 (mp.weixin.qq.com)
HashMap采用key/value存储结构,每个key对应唯一的value,查询和修改的速度都很快,能达到O(1)的平均时间复杂度。它是非线程安全的,且不保证元素存储的顺序。
by @zhisheng_blog 2019-09-22 13:33 查看详情
手把手教你免费使用正版的 IntelliJ IDEA (mp.weixin.qq.com)
IDEA是个人最喜欢的IDE,它非常智能,懂我的心,极大地提高了个人编程效率;让人爱不释手,欲罢不能。

然而,这是一款收费软件,价格不菲。

本文教大家如何 免费,并且 光荣地 使用 正版 IntelliJ IDEA。
by @zhisheng_blog 2019-09-22 13:33 查看详情
还在为怎么阅读 JDK 源码犯愁吗? (mp.weixin.qq.com)
这篇文章主要讲述jdk本身的源码该如何阅读,关于各种框架的源码阅读我们后面再一起探讨。

笔者认为阅读源码主要包括下面几个步骤。
by @zhisheng_blog 2019-09-22 13:32 查看详情
Elasticsearch解决问题之道——请亮出你的DSL! (mp.weixin.qq.com)
在业务开发中,我们往往会陷入开发的细枝末节之中,而忽略了事物的本源。
经常有同学问到:
1, 业务代码实现结果和kibana验证不一致。
比如:我的python或者java程序检索结果怎么和kibana里面不一致?
by @zhisheng_blog 2019-09-22 13:31 查看详情
IDEA 2019.2 你升级了吗? (mp.weixin.qq.com)
idea 2019.2正式版是在2019年7月24号发布的,本篇文章,我将根据官方博客以及自己的理解来进行说明,总体就是:性能更好,体验更优,细节处理更完美!
by @zhisheng_blog 2019-09-22 13:30 查看详情
一文秒懂 QPS、TPS、PV、UV、GMV、IP、RPS! (mp.weixin.qq.com)
QPS、TPS、PV、UV、GMV、IP、RPS等各种名词,外行看起来很牛X,实际上对程序员来说都是必懂知识点。下面我来一一解释一下。
by @zhisheng_blog 2019-09-22 13:30 查看详情
IDEA 这个快捷键有 17 个实用技巧,你竟然还不知道? (mp.weixin.qq.com)
IDEA里有一个万能快捷键(alt enter),功能非常强大,同一个快捷键,可以根据不同的语境提示你不同的操作,
很多人可能还不了解这些功能,在处理代码的时候还手动处理,了解这些技巧之后,你编码也是一种享受。

万能快捷键可以帮你做很多事情,我大概总结了17点:
by @zhisheng_blog 2019-09-22 13:29 查看详情
你公司到底需不需要引入实时计算引擎? (mp.weixin.qq.com)
大数据发展至今,数据呈指数倍的增长,对实效性的要求也越来越高,于是像上面这种需求也变得越来越多了。

那这些场景对应着什么业务需求呢?我们来总结下,大概如下:
by @zhisheng_blog 2019-09-22 13:28 查看详情
一文搞懂 Flink 的 Exactly Once 和 At Least Once (mp.weixin.qq.com)
介绍 CheckPoint 如何保障 Flink 任务的高可用

CheckPoint 中的状态简介

如何实现全域一致的分布式快照?

什么是 barrier?什么是 barrier 对齐?

证明了:为什么 barrier 对齐就是 Exactly Once?为什么 barrier 不对齐就是 At Least Once?
by @zhisheng_blog 2019-09-22 13:28 查看详情
Hadoop YARN:调度性能优化实践 (mp.weixin.qq.com)
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。

美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。
by @zhisheng_blog 2019-09-22 13:27 查看详情
你知道 OOM 常见原因吗?有什么好的解决方法? (mp.weixin.qq.com)
当 JVM 内存严重不足时,就会抛出 java.lang.OutOfMemoryError 错误。本文总结了常见的 OOM 原因及其解决方法,如下图所示。如有遗漏或错误,欢迎补充指正。
by @zhisheng_blog 2019-08-06 23:05 查看详情
Hadoop YARN:调度性能优化实践 (mp.weixin.qq.com)
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。

美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。

离线业务主要运行的是Hive on MapReduce, Spark SQL为主的数据仓库作业。

实时业务主要运行Spark Streaming,Flink为主的实时流计算作业。

机器学习业务主要运行TensorFlow,MXNet,MLX(美团点评自研的大规模机器学习系统)等计算作业。
by @zhisheng_blog 2019-08-06 23:04 查看详情
你公司到底需不需要引入实时计算引擎? (mp.weixin.qq.com)
大数据发展至今,数据呈指数倍的增长,对实效性的要求也越来越高,于是像上面这种需求也变得越来越多了。

那这些场景对应着什么业务需求呢?我们来总结下,大概如下:
by @zhisheng_blog 2019-08-06 23:03 查看详情
深入理解 Java 内存模型 (mp.weixin.qq.com)
《深入理解 Java 内存模型》程晓明著,该书在以前看过一遍,现在学的东西越多,感觉那块越重要,于是又再细看一遍,于是便有了下面的读书笔记总结。全书页数虽不多,内容讲得挺深的。细看的话,也是挺花时间的,看完收获绝对挺大的。也建议 Java 开发者都去看看。里面主要有 Java 内存模型的基础、重排序、顺序一致性、Volatile 关键字、锁、final。本文参考书中内容。
by @zhisheng_blog 2019-07-25 09:52 查看详情
美团点评基于 Flink 的实时数仓建设实践 (mp.weixin.qq.com)
近些年,企业对数据服务实时化服务需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过 Flink 引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。此前我们美团技术博客发布过一篇文章《流计算框架 Flink 与 Storm 的性能对比》,对 Flink 和 Storm 两个引擎的计算性能进行了比较。本文主要阐述使用 Flink 在实际数据生产上的经验。
by @zhisheng_blog 2019-07-25 09:52 查看详情