这几年在存储上犯的错
得知下厨房的数据被误删了,正在紧张恢复中。作为犯过很多次严重错误的人,我最想说的是,善待当事人吧,此刻他在承受着巨大的压力,比其他任何人都要心焦,他会很感激你的善言和善意。 这几年犯过很多次严重影响线上服务的错误,像重启了错误的节点这样的事情应该算作能够对线上造成影响的最微不足道的错误,就只简单说几件现在都还让我心有余悸的事吧。 停用线上 memcached 集群 在调整 memcached 客户端配置的使用和部署方式之前,尽管经过了多次测试,比如在部分节点先上线,确认没有问题之后上线所有的应用服务器,但还是使用了错误的配置,导致线上所有应用禁用了 memcached,巨大的访问压力瞬间拖垮了数据库,从发现问题到完全恢复持续了将近二十分钟。 软件 bug 导致线上 memcached 集群被污染 上线的代码在特定条件下会禁掉对 memcached 的使用,导致在本应清除 c