有故障，毋宁死

Tim[后端技术] 2012-01-14 17:01:36 累计浏览 2,283 次

本机暂存

内容概览

“有故障，毋宁死”，这个略显极端的标题，源自作者对系统稳定性的极致思考。这篇文章探讨的并非某个具体故障的修复，而是一个更根本的理念：在现代软件系统中，对故障的容忍度应该有多高？

作者从软件质量与系统可靠性的关系出发，指出随着软件渗透到业务的核心，故障的影响范围与代价正急剧增大，这催生了“零故障”或“故障收敛”的工程理念。文章并未停留在口号上，而是拆解了实现这一目标所必需的工程实践：它意味着从设计之初就充分考虑容错与隔离，意味着需要建立极其严格的变更管理流程，也意味着对监控、告警与自动化恢复能力的极致追求。

更深层地，文章将“有故障，毋宁死”视为一种设计哲学和文化宣言。它倡导将稳定性置于功能开发之上，认为高质量不是测试出来的，而是通过严谨的设计、编码和运维文化“生产”出来的。对于那些正面临系统复杂度增长、可用性挑战的团队而言，这种对质量“零容忍”的思考方式，或许能提供一种不同的、面向未来的工程视角。

―谈系统故障及软件质量

如果你是一个7×24小时在线服务的整体(或模块)的技术或系统负责人，你的大部分生活会如游走钢丝。

程序会出bug、资源会出故障、发布会操作错误、测试会有疏漏、安全会出漏洞、网络会有波动、服务器会突然坏掉。当产品的需求日益增多，判随工程师团队会日益增大，一个软件项目或功能从开发到上线的完成，都不可能由一人或者几个核心工程师去做，需要由不同背景、不同能力及做事风格的的开发、测试、工程师配合完成。当任一环节问题(包括有不少并非你直接可控范围之内的问题)未及时发现并带到线上之后，最终的责任会落在你的肩上。每当问题一出，你会感受到各方面的压力，有技术的缺陷、工作的失职、流程及规范执行方面的欠缺的问题；同时也会来自组织内外对你能力及人品等方面的质疑的声音。当发生问题后，你可能会独处一隅，沉浸在未能把事情做好的懊悔中。

尽管平时付出了很多辛勤与努力，在业界普遍处于KPI焦虑的环境中，技术作为底层支撑部门，出现的各种问题通常是显而易见的，不足的问题通常会被放大。

因此，你经常面临的艰难的选择是，quality, or death.

传统工作生产中，有标准化的流程及规范来提高质量、降低故障。比如六西格玛(Six Sigma)可以降低产品瑕疵率。他们有成熟的规范与制度，有熟悉制度执行的专业人员，有提供咨询服务且具有丰富经验执行的咨询公司，企业员工及业务负责人只需要按步就班，就可以把问题做得相对到位。但在互联网在线服务这种不规范的软件系统中，有没有类似的标准化流程来指导生产呢？大部分团队需要从头到尾摸索一遍，在交足学费后才能得到一套并不完善的流程及制度？

发布前流程

设计及架构，是否在开发的特性进行设计上的tradeoff？

风险及依赖，开发计划中充分考虑风险及项目依赖因素？

代码是否经过足够的review？

上线计划及风险因素是否考虑详尽？比如是否需要灰度发布？上线后检查及测试措施是否到位？是否有回滚方案，回滚是否会产生脏数据?

当故障发生时

是否有充足渠道及时发现问题？以免小问题变成大问题？

收到问题后是否有合适方式(如日志及工具)快速定位并确认问题？有时候一些用户反馈的些问题并不好测试及重现。

处理问题

是否有现成的问题处理预案？

对于新功能是否有回滚处理方法，回滚后是否存在脏数据需要修复？

总结问题

问题的根源是什么？在技术上、流程上、风险防范上各有什么可以马上执行的行动计划？

非技术因素

在很多企业中，容易把软件质量上发生的各种问题归结到单一的技术因素。但是，如果没有非技术体系的支持，一个团队不可能做到完善的高质量。

研发流程及质量改进在你企业规划中的权重是怎样？年度规划中除了业务目标、竞争环境、市场份额、产品策略之外，研发体系改进是否有一席之地？

在功能需求及产品设计阶段，是否充分考虑了技术风险及人力资源因素？是否会突然启动当前团队并不能支撑的项目？

在开发阶段，开发计划是否符合软件开发规律？开发计划是根据项目压力制定，还是从定好的交付日期来倒推开发时间表？

安全及优化，是否有专门的人力及团队？开发工程师需要面临日常的开发任务，突然被用户发现之前开发的模块存在安全问题，修复完之后发现又带出了另外一个bug？

国内大部分产品面临市场及竞争对手的压力非常大，在相对恶劣的环境下，研发技术建设大多只考虑短期收益。如果期望研发体系做到零故障或者可控的故障(比如six sigma中的99.99966%)，需要长时间的体系建设与积累，包括整个企业的工作流程，同时也需要在技术基础研发上投入更多的精力。

同分类推荐文章

从零重建 macOS 开发机：可复现的环境初始化流程（2026-06-14 20:36:00）
百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形（2026-06-11 08:10:28）
How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide （2026-05-27 02:13:03）

查看更多 DevOps 文章 →

建议继续学习

如何成为Python高手（累计阅读 54,992）
Mysql监控指南（累计阅读 21,351）
hbase运维（累计阅读 14,924）
Bash脚本15分钟进阶教程（累计阅读 9,060）
批量添加主机到 Cacti 的命令行工具（累计阅读 8,559）
找回linux丢失的磁盘空间（累计阅读 8,542）
Linux shell脚本使用while循环执行ssh的注意事项（累计阅读 8,191）
腾讯抄你肿么办（累计阅读 7,755）
中间件和稳定性平台（累计阅读 7,220）
程序员最怕的事（累计阅读 6,923）