标签：disk monitoring

共 2 篇相关文章

IT 累计浏览 2,337

core dump磁盘报警问题排查过程

这篇讲的是线上服务器磁盘突然报警的排查过程。作者从玩客项目一台机器分区占用超80%的告警入手，发现同批次其他机器都正常。通过 `find` 命令查找大于100M的文件，发现大量 `core.数字` 格式的文件，锁定了磁盘占用的元凶——core dump文件堆积。进一步用 `gdb` 分析其中一个core文件，明确是 php-fpm 进程（pool www）产生的崩溃转储。问题根因在于系统的 `core file size` 限制被设为 `unlimited`。通过检查 `/etc/security/limits.conf`，确实存在 `* soft core unlimited` 和 `* hard core unlimited` 的配置，导致php-fpm崩溃时会无限制地生成core dump文件。作者注释掉相关配置并重启php-fpm后，成功将core file size soft limit置为0，从源头禁止了生成。最后删除已有的core文件，将磁盘占用降至50%左右。一个实用的细节是，文章结尾提醒，有时即便在 `limits.conf` 中看到core设为unlimited，但通过 `ulimit -a` 查看实际生效的可能仍是0，排查时需注意。

IT 累计浏览 3,928

使用smartmontools监控磁盘状况

这篇文章讲的是如何用smartmontools这套工具来给磁盘做“体检”。作者从现代硬盘普遍支持的S.M.A.R.T.自监控技术出发，解释了这项技术如何记录磁盘的健康数据，比如坏块数量、温度、读写错误率等关键指标。核心方案是使用smartmontools这个开源套件，它提供了smartctl和smartd两个实用程序。文章具体展示了如何通过smartctl命令行工具即时读取和解析S.M.A.R.T.数据，以及如何配置smartd守护进程进行7x24小时的自动监控与告警。比如，文中会提到如何设置当磁盘的“重新分配扇区数”超过阈值时，通过邮件发送警报。通过这种持续监控，管理员能提前发现磁盘的衰减趋势，在硬件彻底故障前做好数据迁移准备，避免突发宕机带来的数据风险。文章将抽象的监控参数转化为可操作的运维实践，对于需要保障数据持久性的系统管理员很有参考价值。