系统管理员排除故障的五种武器 (linux.cn)

【简介】

当你不知道从哪里开始时,这五个工具可以帮助你找到用户的 IT 问题的源头。

作为系统管理员,我每天都面临着需要快速解决的问题,用户和管理人员期望事情能够顺利地进行。在我管理的这样的一个大型环境中,几乎不可能从头到尾了解所有的系统和产品,所以我必须使用创造性的技术来找到问题的根源,并(希望可以)提出解决方案。

这是我 20 多年来的日常经验!每天上班时,我从不知道会发生什么。因此,我有一些快速而简陋的技巧,当一个问题落在我的身上,而我又不知道从哪里开始时,我一般就会采用这些技巧。

点击查看原文 >>

@技术头条 2022-05-06 23:10 / 原作者微博:@Linux中国 / 0个评论
赞过的人: @IT技术博客大学习
要不要再学学下面的文章?
浅议 .NET 应用 Dump 文件生成及其故障分析 (blog.yuanpei.me)
如果把程序员解决问题的过程比作福尔摩斯探案,除了关心 “5W” 这种基本要素以外,程序员更希望别人能提供丰富的线索。毕竟,神探夏洛克每次破案不总是靠着那 1% 的灵感,他更多的是靠着梳理记忆宫殿里的那些蛛丝马迹。对程序员而言,这种线索可以是日志或者是 Dump 文件。
by @技术头条 2023-07-30 21:38 查看详情
系统运维 | DNS 故障集锦 (linux.cn)
当我第一次知道 DNS 时,我想它应该不会很复杂。不就是一些存储在服务器上的 DNS 记录罢了。有什么大不了的?

但是教科书上只是介绍了 DNS 的原理,并没有告诉你实际使用中 DNS 可能会以多少种方式破坏你的系统。这可不仅仅是缓存问题!

所以我 在 Twitter 上发起了一个提问,征集人们遇到的 DNS 问题,尤其是那些一开始看起来与 DNS 没什么关系的问题。(“总是 DNS 问题”这个梗)

我不打算在这篇文章中讨论如何解决或避免这些问题,但我会放一些讨论这些问题的链接,在那里可以找到解决问题的方法。
by @技术头条 2023-07-23 11:25 查看详情
Redis故障整理-既是热key也是大key导致网卡PPS过高 (www.ipcpu.com)
之前我们遇到过热key,命中了集群中的一组服务器,导致其网卡PPS超出了极限值,经常性出现redis响应变慢的问题。
我们随即对机器和网卡进行了升级,升级成多队列网卡,设置了4个CPU和网卡队里一一对应。
升级完以后,Redis的整体平均响应时间确实变短了,但是仍然会存在一些响应慢的情况出现,经过分析多张监控图的现象,我们发现Redis的QPS一直很稳定。
by @技术头条 2022-12-18 20:02 查看详情
秘密武器 | 看AnalyticDB如何强力支撑双十一 (developer.aliyun.com)
每年双11,不仅仅是剁手族的狂欢节,更是数据人的“大考”,是检验阿里云数据库技术团队技术水平与技术创新实践的舞台。本站已陆续推出双11护航背后的数据库技术实践与经验分享系列干货文章,敬请关注!今天为云原生数据仓库AnalyticDB的技术解析。
by @可耐芊小仙女 2020-11-25 15:04 查看详情
数百万台车联网设备同时在线0故障,中瑞集团的云原生探索之路 (developer.aliyun.com)
在保持对业界趋势调度关注的同时,始终选用最适合自身的技术,这可能是中瑞能在车联网领域引领行业的重要原因之一,正如中瑞CTO所说“阿里云云原生产品体系带给我们的,不是单纯的IT工具,而是整个团队战斗力的提升”。
by @可耐芊小仙女 2020-11-05 10:01 查看详情
这场骗局像极了爱情,阿里小程序“一云多端”用法律武器捍卫爱情 (yq.aliyun.com)
王某通过婚恋平台认识了自称丁某的男士,并添加其社交账号,对方通过包装自己的社交形象,伪装成成功男士,并经常发送甜言蜜语俘获王某芳心。在确定男女朋友关系后,丁某便引诱王某去彩票平台帮忙充值刷流水,声称充值后随时可以提现。王某先后充值2万元后,发现所谓可以提现的网址无法打开,也无法联系到丁某时,才意识到被骗。
by @可耐芊小仙女 2019-12-04 15:00 查看详情
从公有云故障,聊聊如何保障数据安全 (zhuanlan.zhihu.com)
云服务无法保持100%在线,即便是99.9999999%的可靠性依旧存在着故障隐患的风险,数据库、应用服务器、机房等发生单点故障可能就会对业务产生巨大的影响。
by @又拍云 2018-08-16 10:08 查看详情
阿里云云数据库RDS秒级监控功能解锁,通宵加班找故障将成为过去式 (yq.aliyun.com)
每一个奋斗在前线的数据库管理员和运维人员似乎运气都不太好,这些人都绝对经历过的诡异事件就是:逢年过节必出故障,明明眼看着要休假了,又接到故障通知,只好通宵加班找问题。没问题的时候可能大家都不会想到你,一出问题就先拿运维试问,于是每逢佳节便出现拜数据库的戏谑图片。
by @幸运的猫耳 2018-07-10 17:52 查看详情
阿里巴巴发布智能运维故障管理AI+生态计划 (yq.aliyun.com)
为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。
by @幸运的猫耳 2018-06-14 17:35 查看详情
下载 | Intel CPU BranchScope漏洞无需管理员权限 即可窃取数据 再现边信道攻击 (toutiao.secjia.com)
漏洞已经在多款CPU上测试通过,包括Intel Sandy Bridge二代酷睿、Haswell四代酷睿、Skylake六代酷睿,AMD CPU是否受影响还在测试中。Intel早已知道漏洞。
by @gnaw0725 2018-03-29 11:33 查看详情