系统管理员排除故障的五种武器 (linux.cn)

【简介】

当你不知道从哪里开始时,这五个工具可以帮助你找到用户的 IT 问题的源头。

作为系统管理员,我每天都面临着需要快速解决的问题,用户和管理人员期望事情能够顺利地进行。在我管理的这样的一个大型环境中,几乎不可能从头到尾了解所有的系统和产品,所以我必须使用创造性的技术来找到问题的根源,并(希望可以)提出解决方案。

这是我 20 多年来的日常经验!每天上班时,我从不知道会发生什么。因此,我有一些快速而简陋的技巧,当一个问题落在我的身上,而我又不知道从哪里开始时,我一般就会采用这些技巧。

点击查看全文 >>

@技术头条 2022-05-06 23:10分享 / 原作者微博:@Linux中国 / 0个评论
赞过的人: IT技术博客大学习
要不要再学学下面的文章?
秘密武器 | 看AnalyticDB如何强力支撑双十一 (developer.aliyun.com)
每年双11,不仅仅是剁手族的狂欢节,更是数据人的“大考”,是检验阿里云数据库技术团队技术水平与技术创新实践的舞台。本站已陆续推出双11护航背后的数据库技术实践与经验分享系列干货文章,敬请关注!今天为云原生数据仓库AnalyticDB的技术解析。
by @可耐芊小仙女 2020-11-25 15:04 分享 查看详情
数百万台车联网设备同时在线0故障,中瑞集团的云原生探索之路 (developer.aliyun.com)
在保持对业界趋势调度关注的同时,始终选用最适合自身的技术,这可能是中瑞能在车联网领域引领行业的重要原因之一,正如中瑞CTO所说“阿里云云原生产品体系带给我们的,不是单纯的IT工具,而是整个团队战斗力的提升”。
by @可耐芊小仙女 2020-11-05 10:01 分享 查看详情
这场骗局像极了爱情,阿里小程序“一云多端”用法律武器捍卫爱情 (yq.aliyun.com)
王某通过婚恋平台认识了自称丁某的男士,并添加其社交账号,对方通过包装自己的社交形象,伪装成成功男士,并经常发送甜言蜜语俘获王某芳心。在确定男女朋友关系后,丁某便引诱王某去彩票平台帮忙充值刷流水,声称充值后随时可以提现。王某先后充值2万元后,发现所谓可以提现的网址无法打开,也无法联系到丁某时,才意识到被骗。
by @可耐芊小仙女 2019-12-04 15:00 分享 查看详情
从公有云故障,聊聊如何保障数据安全 (zhuanlan.zhihu.com)
云服务无法保持100%在线,即便是99.9999999%的可靠性依旧存在着故障隐患的风险,数据库、应用服务器、机房等发生单点故障可能就会对业务产生巨大的影响。
by @又拍云 2018-08-16 10:08 分享 查看详情
阿里云云数据库RDS秒级监控功能解锁,通宵加班找故障将成为过去式 (yq.aliyun.com)
每一个奋斗在前线的数据库管理员和运维人员似乎运气都不太好,这些人都绝对经历过的诡异事件就是:逢年过节必出故障,明明眼看着要休假了,又接到故障通知,只好通宵加班找问题。没问题的时候可能大家都不会想到你,一出问题就先拿运维试问,于是每逢佳节便出现拜数据库的戏谑图片。
by @幸运的猫耳 2018-07-10 17:52 分享 查看详情
阿里巴巴发布智能运维故障管理AI+生态计划 (yq.aliyun.com)
为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。
by @幸运的猫耳 2018-06-14 17:35 分享 查看详情
下载 | Intel CPU BranchScope漏洞无需管理员权限 即可窃取数据 再现边信道攻击 (toutiao.secjia.com)
漏洞已经在多款CPU上测试通过,包括Intel Sandy Bridge二代酷睿、Haswell四代酷睿、Skylake六代酷睿,AMD CPU是否受影响还在测试中。Intel早已知道漏洞。
by @gnaw0725 2018-03-29 11:33 分享 查看详情
如何利用秒级监控进行mongodb故障排查 (yq.aliyun.com)
在我们平时的数据库使用当中,监控系统,作为排查故障,告警故障的重要辅助系统,对dba、运维、业务开发同学进行问题诊断、排查、分析有着重要的作用。并且一个监控系统的好坏,也很大程度上影响了能否精确的定位故障,以及是否能正确进行问题修复,避免下一次的故障。
by @幸运的猫耳 2018-03-22 11:52 分享 查看详情
一个伴随我半年的疑难故障 (www.linuxprobe.com)
本文将介绍一个困扰笔者近半年的虚拟化环境下的疑难故障,最后排查出来的故障原因和修复手段也让人啼笑皆非。并非因为这个过程有多复杂,而是分享一个心理历程,思考在遇到故障时如何兼顾业务和技术,如何正确使用搜索引擎。
by @Linux就该这么学 2017-11-08 16:22 分享 查看详情
系统管理员的修炼宝典 (www.linuxprobe.com)
网络和系统管理工作工资高、岗位多。
我们为秩序而战,而服务器大叔则需要你成为系统管理员。
如果你参加过系统管理者会议或观看过他们的视频,你会发现这是一个需要新鲜血液的领域。不仅仅是明显的缺少年轻人,而且相当地性别和种族不平等。虽然有点儿跑题,但是多样性已经被证明可以提高系统管理员非常感兴趣的自我恢复力、解决问题的能力,创新力和决策力。
by @Linux就该这么学 2017-09-09 14:27 分享 查看详情