ulimit -t 引起的kill血案
这篇讲的是一个由系统资源限制 `ulimit -t` 引发的生产事故。作者从一次线上服务进程被莫名“kill”的异常现象出发,逐步抽丝剥茧。他们发现,罪魁祸首是在启动脚本中被悄悄设置的 `ulimit -t`(限制进程的CPU时间)。一旦进程累积的CPU时间超过该阈值,系统就会毫不留情地将其终止。 文章详细复盘了整个排查过程:如何从监控指标中的“被信号终止”线索,追溯到用户进程的资源限制配置,最终定位到这个看似无害却容易被忽略的参数。关键在于,许多开发者并不清楚 `-t` 的具体语义,且它在多数现代发行版中默认值极高,一旦被显式设置一个较小的值(比如300秒),对于计算密集型任务就可能成为致命陷阱。 作者的结论很明确:在容器化和云原生环境中,CPU资源应通过 cgroup 或 Kubernetes 的资源配额来精细管理,而不是依赖这种传统的、作用域模糊的 shell 级限制。这篇文章提醒我们,在优化服务时,那些隐藏在启动脚本深处的 legacy 配置,可能正埋着下一次“血案”的种子。