监控进程
有时候,进程突然终止服务,可能是没有资源了,也可能是意外,比如说:因为 OOM 被杀;或者由于 BUG 导致崩溃;亦或者误操作等等,此时,我们需要重新启动进程。
实际上,Linux 本身的初始化系统能实现简单的功能,无论是老牌的 SysVinit,还是新潮的 Upstart 或者 Systemd 均可,但它们并不适合处理一些复杂的情况,比如说:CPU 占用超过多少就重启;或者同时管理 100 个 PHP 实现的 Worker 进程等等,如果你有类似的需求,那么可以考虑试试 Monit 和 Supervisor,相信会有不一样的感受。
让我们看看 Monit 的用法,假设我们要监控 Nginx 进程,一旦其 CPU 使用率连续 5 次超过 80% 的话,就重启进程,此时就可以按照如下方式设置:
check process nginx with pidfile /var/run/nginx.pid start program = "/etc/init.d/nginx start" stop program = "/etc/init.d/nginx stop" if cpu is greater than 80% for 5 cycles then restart
Monit 根据 pidfile 轮询对应的进程是否健在,满足条件就执行 start/stop 等操作。如果进程本身不存在 pidfile,那么也可以使用 matching 语法来匹配进程。
再让我们看看 Supervisor 的用法,假设我们要监控 100 个 PHP 实现的 Worker 进程,用来提供 Gearman 之类的服务,由于 PHP 本身运行模式的缘故,为了避免严重的内存泄漏问题,我们设定 PHP 进程服务一定次数或一段时间后就自动退出,这时候我们需要启动新的 Worker 进程,以便总数维持不变,此时就可以按照如下方式设置:
[program:worker] command=/usr/bin/php /path/to/worker.php process_name=%(program_name)s_%(process_num)02d numprocs=100 autostart=true autorestart=true
如果说 Supervisor 有什么缺点的话,那么首当其冲的是对使用者而言它不够透明:很多进程都是后台运行的,但 Supervisor 却要求必须改成前台运行。好在多数服务都提供了对应的配置选项,如果没有的话,我们也可以使用一些变通的方法:
How can I supervise a daemon that puts itself into the background?
Managing daemons with supervisor: no foreground mode available.
不管用什么来监控进程,如果监控者本身挂了,那么被监控者无疑就失控了。此时需要考虑如何监控监控者本身,这似乎是一个递归问题,不过文章开头我们说过,Linux 本身的初始化系统就能实现简单的监控功能,以 SysVinit 为例,编辑 /etc/inittab 文件:
SU:2345:respawn:/usr/bin/supervisord -c /etc/supervisord.conf
改好后运行「init q」命令让其生效,然后 kill 掉 supervisor 进程看看会不会发生奇迹。
注意:记得事先我们要配置 Supervisor 为 nodaemon=true 噢。
建议继续学习:
- Mysql监控指南 (阅读:19907)
- 批量添加主机到cacti+nagios的监控报警系统中 (阅读:13396)
- 我常用的主机监控shell脚本 (阅读:11621)
- Linux内存点滴 用户进程内存空间 (阅读:11723)
- 7 天打造前端性能监控系统 (阅读:10297)
- 如何监控HP服务器硬件状态 (阅读:9214)
- Cacti 添加 Nginx 监控 (阅读:9050)
- Linux下三种常用的流量监控软件对比 (阅读:8798)
- Oracle MTS模式下 进程地址与会话信息 (阅读:11459)
- Cacti 添加 Memcached 监控 (阅读:8239)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:老王 来源: 火丁笔记
- 标签: 监控 进程
- 发布时间:2015-02-14 14:09:19
- [56] WEB系统需要关注的一些点
- [52] Oracle MTS模式下 进程地址与会话信
- [49] find命令的一点注意事项
- [48] 如何拿下简短的域名
- [48] Go Reflect 性能
- [47] Twitter/微博客的学习摘要
- [47] 图书馆的世界纪录
- [46] android 开发入门
- [46] IOS安全–浅谈关于IOS加固的几种方法
- [45] 流程管理与用户研究