一个伴随我半年的疑难故障 (www.linuxprobe.com)

【简介】

本文将介绍一个困扰笔者近半年的虚拟化环境下的疑难故障,最后排查出来的故障原因和修复手段也让人啼笑皆非。并非因为这个过程有多复杂,而是分享一个心理历程,思考在遇到故障时如何兼顾业务和技术,如何正确使用搜索引擎。

点击查看原文 >>

@Linux就该这么学 2017-11-08 16:22 / 0个评论
赞过的人: @技术头条 @Linux就该这么学
要不要再学学下面的文章?
浅议 .NET 应用 Dump 文件生成及其故障分析 (blog.yuanpei.me)
如果把程序员解决问题的过程比作福尔摩斯探案,除了关心 “5W” 这种基本要素以外,程序员更希望别人能提供丰富的线索。毕竟,神探夏洛克每次破案不总是靠着那 1% 的灵感,他更多的是靠着梳理记忆宫殿里的那些蛛丝马迹。对程序员而言,这种线索可以是日志或者是 Dump 文件。
by @技术头条 2023-07-30 21:38 查看详情
系统运维 | DNS 故障集锦 (linux.cn)
当我第一次知道 DNS 时,我想它应该不会很复杂。不就是一些存储在服务器上的 DNS 记录罢了。有什么大不了的?

但是教科书上只是介绍了 DNS 的原理,并没有告诉你实际使用中 DNS 可能会以多少种方式破坏你的系统。这可不仅仅是缓存问题!

所以我 在 Twitter 上发起了一个提问,征集人们遇到的 DNS 问题,尤其是那些一开始看起来与 DNS 没什么关系的问题。(“总是 DNS 问题”这个梗)

我不打算在这篇文章中讨论如何解决或避免这些问题,但我会放一些讨论这些问题的链接,在那里可以找到解决问题的方法。
by @技术头条 2023-07-23 11:25 查看详情
Redis故障整理-既是热key也是大key导致网卡PPS过高 (www.ipcpu.com)
之前我们遇到过热key,命中了集群中的一组服务器,导致其网卡PPS超出了极限值,经常性出现redis响应变慢的问题。
我们随即对机器和网卡进行了升级,升级成多队列网卡,设置了4个CPU和网卡队里一一对应。
升级完以后,Redis的整体平均响应时间确实变短了,但是仍然会存在一些响应慢的情况出现,经过分析多张监控图的现象,我们发现Redis的QPS一直很稳定。
by @技术头条 2022-12-18 20:02 查看详情
系统管理员排除故障的五种武器 (linux.cn)
当你不知道从哪里开始时,这五个工具可以帮助你找到用户的 IT 问题的源头。

作为系统管理员,我每天都面临着需要快速解决的问题,用户和管理人员期望事情能够顺利地进行。在我管理的这样的一个大型环境中,几乎不可能从头到尾了解所有的系统和产品,所以我必须使用创造性的技术来找到问题的根源,并(希望可以)提出解决方案。

这是我 20 多年来的日常经验!每天上班时,我从不知道会发生什么。因此,我有一些快速而简陋的技巧,当一个问题落在我的身上,而我又不知道从哪里开始时,我一般就会采用这些技巧。
by @技术头条 2022-05-06 23:10 查看详情
数百万台车联网设备同时在线0故障,中瑞集团的云原生探索之路 (developer.aliyun.com)
在保持对业界趋势调度关注的同时,始终选用最适合自身的技术,这可能是中瑞能在车联网领域引领行业的重要原因之一,正如中瑞CTO所说“阿里云云原生产品体系带给我们的,不是单纯的IT工具,而是整个团队战斗力的提升”。
by @可耐芊小仙女 2020-11-05 10:01 查看详情
从公有云故障,聊聊如何保障数据安全 (zhuanlan.zhihu.com)
云服务无法保持100%在线,即便是99.9999999%的可靠性依旧存在着故障隐患的风险,数据库、应用服务器、机房等发生单点故障可能就会对业务产生巨大的影响。
by @又拍云 2018-08-16 10:08 查看详情
阿里云云数据库RDS秒级监控功能解锁,通宵加班找故障将成为过去式 (yq.aliyun.com)
每一个奋斗在前线的数据库管理员和运维人员似乎运气都不太好,这些人都绝对经历过的诡异事件就是:逢年过节必出故障,明明眼看着要休假了,又接到故障通知,只好通宵加班找问题。没问题的时候可能大家都不会想到你,一出问题就先拿运维试问,于是每逢佳节便出现拜数据库的戏谑图片。
by @幸运的猫耳 2018-07-10 17:52 查看详情
阿里巴巴发布智能运维故障管理AI+生态计划 (yq.aliyun.com)
为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。
by @幸运的猫耳 2018-06-14 17:35 查看详情
如何利用秒级监控进行mongodb故障排查 (yq.aliyun.com)
在我们平时的数据库使用当中,监控系统,作为排查故障,告警故障的重要辅助系统,对dba、运维、业务开发同学进行问题诊断、排查、分析有着重要的作用。并且一个监控系统的好坏,也很大程度上影响了能否精确的定位故障,以及是否能正确进行问题修复,避免下一次的故障。
by @幸运的猫耳 2018-03-22 11:52 查看详情
从公有云单点故障看融合云存储的重要性 (support.upyun.com)
从数据库、应用服务器、机房三方面深入浅出的聊单点故障以及相应的解决方案
by @Jerry轩5211 2017-07-31 14:09 查看详情