IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

企业服务器监控及报警配置打造(ganglia and nagios)-part 1

五四陈科学院-坚信科学,分享技术 2010-12-08 22:13:08 累计浏览 3,334 次
本机暂存

    我(54chen)的服务器操作系统:centos 5.5 x86_64 (六十四位centOS 5.5)

    第一步,修改yum源

    # cd /etc/yum.repos.d/

    #vim dag.repo

    写出如下信息:

    [dag]

    name=Dag RPM Repository for Red Hat Enterprise Linux

    baseurl=http://apt.sw.be/redhat/el$releasever/en/$basearch/dag

    gpgcheck=1

    gpgkey=http://dag.wieers.com/rpm/packages/RPM-GPG-KEY.dag.txt

    enabled=1

    第二步,通过yum安装所有依赖

    yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-develyum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-devel

    第三步,通过yum安装rrdtool(画图的数据存储)

    yum install -y rrdtool perl-rrdtool rrdtool-develyum install -y rrdtool perl-rrdtool rrdtool-devel

    第四步,通过rpm安装libconfuse依赖

    wget http://download.fedora.redhat.com/pub/epel/5/x86_64/libconfuse-2.5-4.el5.x86_64.rpm

    wget http://download.fedora.redhat.com/pub/epel/5/x86_64/libconfuse-devel-2.5-4.el5.x86_64.rpm

    rpm -ivh libconfuse-2.5-4.el5.x86_64.rpm

    rpm -ivh libconfuse-devel-2.5-4.el5.x86_64.rpm

    第五步,下载源码安装

    wget http://cdnetworks-kr-1.dl.sourceforge.net/project/ganglia/ganglia%20monitoring%20core/3.1.7/ganglia-3.1.7.tar.gz

    tar zxvf ganglia-3.1.7.tar.gz

    cd ganglia-3.1.7

    ./configure -with-gmetad -sysconfdir=/etc/ganglia

    make

    make install

    第六步,安装 nginx php环境 略去(54chen的老文章里有多个安装nginx-php的文章,自查之。右侧有搜索框)

    cp -a web/* /var/www/html/ganglia/

    cp gmetad/gmetad.init /etc/init.d/gmetad

    cp gmond/gmond.init /etc/init.d/gmond

    gmond -t | tee /etc/ganglia/gmond.conf

    mkdir -p /var/lib/ganglia/rrds

    chown nobody:nobody /var/lib/ganglia/rrds

    第七步,启动gmond gmetad

    /etc/init.d/gmond start

    /etc/init.d/gmetad start

    Q&A

    1.gmetad错误处理

    检查 /var/lib/ganglia/rrds 是否建立 以及权限是不是正确

    2.配置名称等不生效的原因

    gmetad/gmond restart可能会不起作用,直接kill.

    3.gmond起不来的原因

    udp设置有问题,多播模式,请修改那个默认的ip地址(那是一个不存在的地址,用来广播的,gmeta会从广播里抓出来分析),同一组cluster的机器使用同一个广播ip地址

    4.节点安装gmond(客户端):不再需要rrdtool,不需要gmetad支持

    rpm -ivh libconfuse-2.5-4.el5.x86_64.rpm

    rpm -ivh libconfuse-devel-2.5-4.el5.x86_64.rpm

    yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-develyum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel \\

    rpmbuild glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel \\

    python-devel libXrender-devel zlib libpng freetype libjpeg fontconfig gd libxml2 \\

    pcre pcre-devel libpcre libconfuse libart_lgpl-devel

    ./configure -prefix=/opt/soft/ganglia -sysconfdir=/opt/soft/ganglia/etc/

    make

    make install

    /opt/soft/ganglia/sbin/gmond -default_config > /opt/soft/ganglia/etc/gmond.conf

    修改cluster_name和多播的那个莫名其妙的ip地址启动即可。

    5.安装完成后为什么都正常只有空图却没有显示各节点的数据?

    我(54chen)被这个问题搞了半天,最后才发现是因为各节点的服务器时间有问题,

    * */2 * * * ntpdate time.windows.com放到crontab里,或者是直接执行一下ntpdate time.windows.com。

    6.为什么各个cluster的服务器互相乱窜?

    一定要注意,不同的cluster多播到各个不同的ip去,比如ABCD是一组,那全到239.2.11.71,而FGH是另一组,那就全到239.2.11.72。

    下一part讲述nagios搭配ganglia的报警设置。

同分类推荐文章

  1. 从零重建 macOS 开发机:可复现的环境初始化流程 (2026-06-14 20:36:00)
  2. 百度物理网络监控工具开源第二弹:毫秒级监控工具 baize,让你的网络问题无处遁形 (2026-06-11 08:10:28)
  3. How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide (2026-05-27 02:13:03)

查看更多 DevOps 文章 →

建议继续学习

  1. WEB系统需要关注的一些点 (累计阅读 18,219)
  2. 批量添加主机到cacti+nagios的监控报警系统中 (累计阅读 14,992)
  3. 我常用的主机监控shell脚本 (累计阅读 13,433)
  4. Cacti 添加 Apache 监控 (累计阅读 9,245)
  5. 查看 CPU, Memory, I/O and NetFlow (累计阅读 8,134)
  6. 读腾讯大讲堂 (累计阅读 6,147)
  7. 通过『iostat -dx 1』命令监控IO性能 (累计阅读 5,171)
  8. Facebook是如何开发软件的 (累计阅读 4,813)
  9. cacti 增加 Mysql 监控 (累计阅读 4,493)
  10. 服务器监控软件Zabbix初窥 (累计阅读 4,323)