IT技术博客大学习 共学习 共进步

企业服务器监控及报警配置打造(ganglia and nagios)-part 1

五四陈科学院-坚信科学,分享技术 2010-12-08 22:13:08 浏览 3,241 次

    我(54chen)的服务器操作系统:centos 5.5 x86_64 (六十四位centOS 5.5)

    第一步,修改yum源

    # cd /etc/yum.repos.d/

    #vim dag.repo

    写出如下信息:

    [dag]

    name=Dag RPM Repository for Red Hat Enterprise Linux

    baseurl=http://apt.sw.be/redhat/el$releasever/en/$basearch/dag

    gpgcheck=1

    gpgkey=http://dag.wieers.com/rpm/packages/RPM-GPG-KEY.dag.txt

    enabled=1

    第二步,通过yum安装所有依赖

    yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-develyum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-devel

    第三步,通过yum安装rrdtool(画图的数据存储)

    yum install -y rrdtool perl-rrdtool rrdtool-develyum install -y rrdtool perl-rrdtool rrdtool-devel

    第四步,通过rpm安装libconfuse依赖

    wget http://download.fedora.redhat.com/pub/epel/5/x86_64/libconfuse-2.5-4.el5.x86_64.rpm

    wget http://download.fedora.redhat.com/pub/epel/5/x86_64/libconfuse-devel-2.5-4.el5.x86_64.rpm

    rpm -ivh libconfuse-2.5-4.el5.x86_64.rpm

    rpm -ivh libconfuse-devel-2.5-4.el5.x86_64.rpm

    第五步,下载源码安装

    wget http://cdnetworks-kr-1.dl.sourceforge.net/project/ganglia/ganglia%20monitoring%20core/3.1.7/ganglia-3.1.7.tar.gz

    tar zxvf ganglia-3.1.7.tar.gz

    cd ganglia-3.1.7

    ./configure -with-gmetad -sysconfdir=/etc/ganglia

    make

    make install

    第六步,安装 nginx php环境 略去(54chen的老文章里有多个安装nginx-php的文章,自查之。右侧有搜索框)

    cp -a web/* /var/www/html/ganglia/

    cp gmetad/gmetad.init /etc/init.d/gmetad

    cp gmond/gmond.init /etc/init.d/gmond

    gmond -t | tee /etc/ganglia/gmond.conf

    mkdir -p /var/lib/ganglia/rrds

    chown nobody:nobody /var/lib/ganglia/rrds

    第七步,启动gmond gmetad

    /etc/init.d/gmond start

    /etc/init.d/gmetad start

    Q&A

    1.gmetad错误处理

    检查 /var/lib/ganglia/rrds 是否建立 以及权限是不是正确

    2.配置名称等不生效的原因

    gmetad/gmond restart可能会不起作用,直接kill.

    3.gmond起不来的原因

    udp设置有问题,多播模式,请修改那个默认的ip地址(那是一个不存在的地址,用来广播的,gmeta会从广播里抓出来分析),同一组cluster的机器使用同一个广播ip地址

    4.节点安装gmond(客户端):不再需要rrdtool,不需要gmetad支持

    rpm -ivh libconfuse-2.5-4.el5.x86_64.rpm

    rpm -ivh libconfuse-devel-2.5-4.el5.x86_64.rpm

    yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-develyum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-devel

    ./configure -prefix=/opt/soft/ganglia -sysconfdir=/opt/soft/ganglia/etc/

    make

    make install

    /opt/soft/ganglia/sbin/gmond -default_config > /opt/soft/ganglia/etc/gmond.conf

    修改cluster_name和多播的那个莫名其妙的ip地址启动即可。

    5.安装完成后为什么都正常只有空图却没有显示各节点的数据?

    我(54chen)被这个问题搞了半天,最后才发现是因为各节点的服务器时间有问题,

    * */2 * * * ntpdate time.windows.com放到crontab里,或者是直接执行一下ntpdate time.windows.com。

    6.为什么各个cluster的服务器互相乱窜?

    一定要注意,不同的cluster多播到各个不同的ip去,比如ABCD是一组,那全到239.2.11.71,而FGH是另一组,那就全到239.2.11.72。

    下一part讲述nagios搭配ganglia的报警设置。

建议继续学习

  1. Mysql监控指南 (阅读 21,101)
  2. 批量添加主机到cacti+nagios的监控报警系统中 (阅读 14,680)
  3. 我常用的主机监控shell脚本 (阅读 13,101)
  4. 7 天打造前端性能监控系统 (阅读 11,061)
  5. 如何监控HP服务器硬件状态 (阅读 10,503)
  6. Cacti 添加 Nginx 监控 (阅读 10,361)
  7. Linux下三种常用的流量监控软件对比 (阅读 9,980)
  8. Cacti 添加 Memcached 监控 (阅读 9,161)
  9. Cacti 添加 Apache 监控 (阅读 8,983)
  10. 你应该知道的16个Linux服务器监控命令 (阅读 8,403)