记录一次Flink作业异常的排查过程 (club.perfma.com)

【简介】

最近2周开始接手apache flink全链路监控数据的作业,包括指标统计,业务规则匹配等逻辑,计算结果实时写入elasticsearch. 昨天遇到生产环境有作业无法正常重启的问题,我负责对这个问题进行排查跟进。

点击查看原文 >>

@PerfMa社区 2020-06-16 10:54 / 0个评论
赞过的人: @技术头条 @IT技术博客大学习 @PerfMa社区
要不要再学学下面的文章?
记一次无法弹出移动硬盘的记录 (lisenhui.cn)
或许在当下云计算时代,已经很少有人会用到移动硬盘或U盘的经验,亦或者大多数人都没有弹出移动设备后再拨出的习惯。笔者因早年在使用U盘时经历过直接拨出U盘导致其报废的“惨痛”教训,因此对移出设备的操作是铭记于心,万不敢直接拨插移动设备。但就是这个只需点击一次移出设备的操作,很多时候就会让我们有些烦恼,因为它有时候总喜欢和你对着干。这不今天就遇上一件无法解释的诡异现象:移动硬盘无法弹出,尝试过之前的各种妙招后仍是无济于事,最后也只是能祭出万能的关机大法才算是得以解脱。
by @技术头条 2024-03-13 13:20 查看详情
JVM内存问题排查流程 (l1n.wang)
首先确认问题现象,可以通过服务状态,监控面板、日志信息、监控工具(VisualVM)等,确认问题类型:
1、内存使用率居高不下、内存缓慢增加、OOM等;
2、频繁GC:Full GC等;
发现问题不建议重启,留存状态。
by @技术头条 2024-03-12 22:26 查看详情
HTTPS通信过程分析 (l1n.wang)
为什么需要HTTPS?HTTP缺点: 1. 明文传输; 2.C/S两端不存在验证机制,无法确认对方身份,可能存在中间人攻击。
by @技术头条 2024-01-17 23:09 查看详情
团队管理过程的信息不对称 (hiwannz.com)
聊聊那些在工作中常见的“信息不对称”。虽然这个名词几乎每个人都听到过,但实际上我觉得还是可以按照“人员,角色,岗位”三个维度拆分成 5 种不同的信息不对称区别。
by @技术头条 2023-11-29 23:49 查看详情
记录一下当年把 FreeBSD 中 zlib 砍到只剩一份的过程 (blog.delphij.net)
软件项目中,实现同一功能的源代码只保留一份是一项十分重要的最佳实践,这种做法可以带来许多显而易见的好处。

FreeBSD 是一个有相当长历史的项目,而 zlib 是一个很常用的库,并且当时在整个系统中有多处不同的副本,因此我们希望这个迁移的过程尽可能平滑而尽量不要直接导致整个项目无法联编,或是需要长时间禁用某些模块的情况。
by @技术头条 2023-10-24 23:52 查看详情
HDFS的一些知识点记录 (ixyzero.com)
HDFS的内部数据安全风险很多,总的来看,对于内部监控来说,一方面是将本来限制在IDC内部才可访问的Hadoop相关系统通过WebHDFS等HTTP(S)形式的API对办公网或外部进行了开放,扩大了攻击面,这个需要从Web/API层面去做分析和监控预警;另一方面是安全认证/加密等措施执行不到位,导致攻击者只要获取到master/namenode等地址信息就可以直接通过alluxio/hadoop等客户端直连,然后通过文件拷贝等方式获取parquet文件从而拿到敏感数据完成攻击,这个需要从主机层的异常命令操作分析来监控预警相关风险。
by @技术头条 2023-09-10 23:29 查看详情
一次「找回」TraceId的问题分析与过程思考 (tech.meituan.com)
用好中间件是每一个开发人员的基本功,一个专业的开发人员,追求的不仅是中间件的日常使用,还要探究这背后的设计初衷和底层逻辑,进而保证我们的系统运行更加稳定,让开发工作更加高效。结合这一主题,本文从一次线上告警问题出发,通过第一时间定位问题的根本原因,进而引出Google Dapper与MTrace(美团内部自研)这类分布式链路追踪系统的设计思想和实现途径,再回到问题本质深入@Async的源码分析底层的异步逻辑和实现特点,并给出MTrace跨线程传递失效的原因和解决方案,最后梳理目前主流的分布式跟踪系统的现状,并结合开发人员日常使用中间件的场景提出一些思考和总结。
by @技术头条 2023-07-02 23:39 查看详情
使用docker-compose部署最新版loki+promtail+grafana采集Nginx的日志流程记录 (wiki.eryajf.net)
在一些轻量化的场景之中,使用 ELK 方案来解决日志问题就会比较笨重,素闻 Loki 比较香,今天折腾了一番,特此记录一下整个流程。本文不涉及 Loki 的深度使用与研究,但是参照本文,你可以快速把 Loki 拉起来,并且把 Nginx 日志正确采集进来。
by @技术头条 2023-06-05 23:53 查看详情
廉价的家庭工作站设备改造记录:苹果垃圾桶(Mac Pro 2013) (soulteary.com)
聊聊最近对一台便宜的苹果老设备的使用和升级改造,以及过程中的小经验。

如果你没有在家里安静的进行长时间密集计算的需求,也不想“烧烤”你的 MacBook ,并且没有总成本低一些的要求,那么这个方案或许并不适合你。

相比之下,我更推荐采购支持 ECC 内存的搭载 13 代桌面 CPU 工作站(如 P360 之类的),功耗比、性能、可扩展性都很棒,美中不足的只有三点:体积大一些,使用的是工作频率不高的 DDR5 ECC 内存,价格会是这台设备的三倍。
by @技术头条 2023-02-12 14:06 查看详情
日志记录的最佳实践 (insights.thoughtworks.cn)
好的日志不仅可以为程序开发提供便利,为故障排除提供最重要的辅助信息,更可以为业务或基础设施提供优化建议或数据统计。
by @Thoughtworks 2022-09-29 17:32 查看详情