相关分享
浅议 .NET 应用 Dump 文件生成及其故障分析
如果把程序员解决问题的过程比作福尔摩斯探案,除了关心 “5W” 这种基本要素以外,程序员更希望别人能提供丰富的线索。毕竟,神探夏洛克每次破案不总是靠着那 1% 的灵感,他更多的是靠着梳理记忆宫殿里的那些蛛丝马迹。对程序员而言,这种线索可以是日志或者是 Dump 文件。
系统运维 | DNS 故障集锦
当我第一次知道 DNS 时,我想它应该不会很复杂。不就是一些存储在服务器上的 DNS 记录罢了。有什么大不了的?
但是教科书上只是介绍了 DNS 的原理,并没有告诉你实际使用中 DNS 可能会以多少种方式破坏你的系统。这可不仅仅是缓存问题!
所以我 在 Twitter 上发起了一个提问,征集人们遇到的 DNS 问题,尤其是那些一开始看起来与 DNS 没什么关系的问题。(“总是 DNS 问题”这个梗)
我不打算在这篇文章中讨论如何解决或避免这些问题,但我会放一些讨论这些问题的链接,在那里可以找到解决问题的方法。
MacBook 与其他设备的低成本高性能数据传输方案(二)
本篇文章,补充多台不同芯片(M1、M2、x86)的 MacBook 使用雷电数据线进行数据传输,以及使用 2.5G 网卡满足不支持雷电传输设备之间的性能测试。
MacBook 与其他设备的低成本高性能数据传输方案(一)
本篇文章分享在不使用路由器的情况下,使用“数据线或网线”将 MacBook 与其他设备连接在一起,获得更高效率的数据交换性能。
Redis故障整理-既是热key也是大key导致网卡PPS过高
之前我们遇到过热key,命中了集群中的一组服务器,导致其网卡PPS超出了极限值,经常性出现redis响应变慢的问题。
我们随即对机器和网卡进行了升级,升级成多队列网卡,设置了4个CPU和网卡队里一一对应。
升级完以后,Redis的整体平均响应时间确实变短了,但是仍然会存在一些响应慢的情况出现,经过分析多张监控图的现象,我们发现Redis的QPS一直很稳定。
系统管理员排除故障的五种武器
当你不知道从哪里开始时,这五个工具可以帮助你找到用户的 IT 问题的源头。
作为系统管理员,我每天都面临着需要快速解决的问题,用户和管理人员期望事情能够顺利地进行。在我管理的这样的一个大型环境中,几乎不可能从头到尾了解所有的系统和产品,所以我必须使用创造性的技术来找到问题的根源,并(希望可以)提出解决方案。
这是我 20 多年来的日常经验!每天上班时,我从不知道会发生什么。因此,我有一些快速而简陋的技巧,当一个问题落在我的身上,而我又不知道从哪里开始时,我一般就会采用这些技巧。
数百万台车联网设备同时在线0故障,中瑞集团的云原生探索之路
在保持对业界趋势调度关注的同时,始终选用最适合自身的技术,这可能是中瑞能在车联网领域引领行业的重要原因之一,正如中瑞CTO所说“阿里云云原生产品体系带给我们的,不是单纯的IT工具,而是整个团队战斗力的提升”。
从公有云故障,聊聊如何保障数据安全
云服务无法保持100%在线,即便是99.9999999%的可靠性依旧存在着故障隐患的风险,数据库、应用服务器、机房等发生单点故障可能就会对业务产生巨大的影响。
阿里云云数据库RDS秒级监控功能解锁,通宵加班找故障将成为过去式
每一个奋斗在前线的数据库管理员和运维人员似乎运气都不太好,这些人都绝对经历过的诡异事件就是:逢年过节必出故障,明明眼看着要休假了,又接到故障通知,只好通宵加班找问题。没问题的时候可能大家都不会想到你,一出问题就先拿运维试问,于是每逢佳节便出现拜数据库的戏谑图片。
阿里巴巴发布智能运维故障管理AI+生态计划
为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。
