IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:disk monitoring

共 2 篇相关文章

IT 累计浏览 2,337

core dump磁盘报警问题排查过程

这篇讲的是线上服务器磁盘突然报警的排查过程。作者从玩客项目一台机器分区占用超80%的告警入手,发现同批次其他机器都正常。 通过 `find` 命令查找大于100M的文件,发现大量 `core.数字` 格式的文件,锁定了磁盘占用的元凶——core dump文件堆积。进一步用 `gdb` 分析其中一个core文件,明确是 php-fpm 进程(pool www)产生的崩溃转储。 问题根因在于系统的 `core file size` 限制被设为 `unlimited`。通过检查 `/etc/security/limits.conf`,确实存在 `* soft core unlimited` 和 `* hard core unlimited` 的配置,导致php-fpm崩溃时会无限制地生成core dump文件。作者注释掉相关配置并重启php-fpm后,成功将core file size soft limit置为0,从源头禁止了生成。最后删除已有的core文件,将磁盘占用降至50%左右。 一个实用的细节是,文章结尾提醒,有时即便在 `limits.conf` 中看到core设为unlimited,但通过 `ulimit -a` 查看实际生效的可能仍是0,排查时需注意。

IT 累计浏览 3,928

使用smartmontools监控磁盘状况

这篇文章讲的是如何用smartmontools这套工具来给磁盘做“体检”。作者从现代硬盘普遍支持的S.M.A.R.T.自监控技术出发,解释了这项技术如何记录磁盘的健康数据,比如坏块数量、温度、读写错误率等关键指标。 核心方案是使用smartmontools这个开源套件,它提供了smartctl和smartd两个实用程序。文章具体展示了如何通过smartctl命令行工具即时读取和解析S.M.A.R.T.数据,以及如何配置smartd守护进程进行7x24小时的自动监控与告警。比如,文中会提到如何设置当磁盘的“重新分配扇区数”超过阈值时,通过邮件发送警报。 通过这种持续监控,管理员能提前发现磁盘的衰减趋势,在硬件彻底故障前做好数据迁移准备,避免突发宕机带来的数据风险。文章将抽象的监控参数转化为可操作的运维实践,对于需要保障数据持久性的系统管理员很有参考价值。