IT技术博客大学习 共学习 共进步

监控进程

火丁笔记 2015-02-14 14:09:19 浏览 2,702 次

   有时候,进程突然终止服务,可能是没有资源了,也可能是意外,比如说:因为 OOM 被杀;或者由于 BUG 导致崩溃;亦或者误操作等等,此时,我们需要重新启动进程。

   实际上,Linux 本身的初始化系统能实现简单的功能,无论是老牌的 SysVinit,还是新潮的 Upstart 或者 Systemd 均可,但它们并不适合处理一些复杂的情况,比如说:CPU 占用超过多少就重启;或者同时管理 100 个 PHP 实现的 Worker 进程等等,如果你有类似的需求,那么可以考虑试试 MonitSupervisor,相信会有不一样的感受。

   让我们看看 Monit 的用法,假设我们要监控 Nginx 进程,一旦其 CPU 使用率连续 5 次超过 80% 的话,就重启进程,此时就可以按照如下方式设置:

check process nginx with pidfile /var/run/nginx.pid
    start program = "/etc/init.d/nginx start"
    stop program  = "/etc/init.d/nginx stop"
    if cpu is greater than 80% for 5 cycles then restart

   Monit 根据 pidfile 轮询对应的进程是否健在,满足条件就执行 start/stop 等操作。如果进程本身不存在 pidfile,那么也可以使用 matching 语法来匹配进程。

   再让我们看看 Supervisor 的用法,假设我们要监控 100 个 PHP 实现的 Worker 进程,用来提供 Gearman 之类的服务,由于 PHP 本身运行模式的缘故,为了避免严重的内存泄漏问题,我们设定 PHP 进程服务一定次数或一段时间后就自动退出,这时候我们需要启动新的 Worker 进程,以便总数维持不变,此时就可以按照如下方式设置:

[program:worker]
command=/usr/bin/php /path/to/worker.php
process_name=%(program_name)s_%(process_num)02d
numprocs=100
autostart=true
autorestart=true

   如果说 Supervisor 有什么缺点的话,那么首当其冲的是对使用者而言它不够透明:很多进程都是后台运行的,但 Supervisor 却要求必须改成前台运行。好在多数服务都提供了对应的配置选项,如果没有的话,我们也可以使用一些变通的方法:

SU:2345:respawn:/usr/bin/supervisord -c /etc/supervisord.conf

   改好后运行「init q」命令让其生效,然后 kill 掉 supervisor 进程看看会不会发生奇迹。

   注意:记得事先我们要配置 Supervisor 为 nodaemon=true 噢。

建议继续学习

  1. Mysql监控指南 (阅读 21,101)
  2. 批量添加主机到cacti+nagios的监控报警系统中 (阅读 14,680)
  3. Oracle MTS模式下 进程地址与会话信息 (阅读 14,184)
  4. 我常用的主机监控shell脚本 (阅读 13,101)
  5. Linux内存点滴 用户进程内存空间 (阅读 12,943)
  6. 7 天打造前端性能监控系统 (阅读 11,060)
  7. 如何监控HP服务器硬件状态 (阅读 10,503)
  8. Cacti 添加 Nginx 监控 (阅读 10,361)
  9. Linux下三种常用的流量监控软件对比 (阅读 9,980)
  10. Cacti 添加 Memcached 监控 (阅读 9,160)