系统运维 -- IT技术博客大学习 -- 共学习共进步！

通过shell 脚本查看服务器的时时流量

• SWAP的罪与罚

说个案例：一台Apache服务器，由于其MaxClients参数设置过大，并且恰好又碰到访问量激增，结果内存被耗光，从而引发SWAP，进而负载攀升，最终导致宕机。正所谓：SWAP，性能之大事，死生之地，存亡之道，不可不察也。哪些工具可以监测SWAP 最容易想到的就是free命令了，它指明了当前SWAP的使用情况......

• 网站排障分析常用的命令

网站排障分析常用的命令

• linux调整swap大小

Swap分区的数量对性能也有很大的影响。因为Swap交换的操作是磁盘IO的操作，如果有多个Swap交换区，Swap空间的分配会以轮流的方式操作于所有的Swap，这样会大大均衡IO的负载，加快Swap交换的速度。如果只有一个交换区，所有的交换操作会使交换区变得很忙，使系统大多数时间处于等待状态，效率很低。用性能监视工具就会发现，此时的CPU并不很忙，而系统却慢。这说明，瓶颈在IO上，依靠提高CPU的速度是解决不了问题的。

• Java正则引发的思考

情况回放：上周预发机器出了一个问题，CPU不定时会近100%满负载运行。重启以后就会恢复，之后又会到达100%，而且不会自恢复。首先想到的是程序出现了死循环，于是用jstack把栈打印出来，发现业务线程都停在了regex相关的代码上，有死循环的样子。查看栈，发现一切都是由ClientFilter这个类开始，其使用了matcher.matches()方法。这样一来，就很可能是由于输入了不规范的正则导致的了。

• 管理Gearman

通常，Gearman被用来分发任务，以便实现异步操作。下面捋捋如何管理Gearman。

• Redis命令行操作指南

介绍直接在Linux下使用命令行对数据库和各种数据类型进行操作。

• 构建web前端异常监控系统–FdSafe

如果你碰巧是一名前端开发，而又碰巧在维护着一个对可用性有极高要求的站点，那么也许你我有过共同的苦恼：如何在第一时间发现线上出现的前端异常？毕竟前端不是每天都可以过网页裸奔节，线上的Javascript错误也足以让用户抓狂地拿起他们的投诉电话。。。每天心惊胆战发布的日子不好过吧？是时候改变下了，让心惊胆战见鬼去吧！我的目标很简单：要在用户和boss发现异常之前就彻底修复问题，其余的时间充分地享受高质量生活:)

• 使用gdb调试运行时的程序小技巧

下面介绍我调试时经常遇到的三种问题，如果大家也有类似的问题交流一下解决方法：情景1：在不中止程序服务的情况下，怎么调试正在运行时的程序情景2：需要同时看几个变量的值或者批量查看多个core文件的堆栈信息怎么办情景3：遇到需要查看、队列、链表、树、堆等数据结构里的变量怎么办

• 三种代理服务器的区别

一个标准的代理缓存通常是用来在本地网络的一台机器上存储静态的Web页面的(html ,image)。当这个页面被再次请求时，浏览器将从本地的代理缓存(Proxy Cache)直接得到它，而不是从源Web Server。浏览器明确的被配置使用代理服务器，所有的HTTP请求都直接指向代理服务器的缓存，而不是Web Server。缓存将直接满足请求(当请求再缓存中有存储时)或者将请求转发到目标服务器。

• LVS hash size解决4096个并发的问题

LVS 有个 connection hash table ，默认的 size 为 4096，可以通过以下命令得到：# ipvsadm -lnIP Virtual Server version 1.0.12 (size=4096)简单地说，这个hash table 用于记录每个进来的连接及路由去向的信息。面对庞大的连接时，这个4096是远远不够的，这时就会产生冲突，然后hash table 就不断置换table 中的数据，系统的负荷就这样上来了。所以，很多调优文章都说，要把这个值调大。至于如何调大呢，好像必须重编译内核了。。。

• 固态硬盘知识汇总

问如何保证固态硬盘的可靠性？答首先，闪存是一项成熟技术，经过了长期的实际测试。虽然闪存颗粒有一定的读写寿命，但以目前的技术来说，其寿命已经远远高于实际使用年限。比如，Intel固态硬盘的官方数据显示，无论使用频度高低，它最少也有5年的有效使用期。如果应用频率不高的话还可以再延长5年。另外，Intel固态硬盘内置了ATA SMART监控功能，随时可以查看其健康状况。用户可以放心，数据安全绝对是固态硬盘制造商的第一考量。

• ZooKeeper管理员指南——部署与管理ZooKeeper

本文以ZooKeeper3.4.3版本的官方指南为基础，补充一些作者运维实践中的要点，围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西。

• ulimit -t 引起的kill血案

问题：某台机器的ulimit -t 不知道为啥是300，这是不是意味着程序占用CPU 300秒后会收到SIGKILL ？我用gdb跑mysqld 跑了一会，收到SIGKILL信号，没有配置cgroup，也没啥后台脚本，看了下，就ulimit -t 比较诡异，其他机器都是unlimited。简单的man ulimit下手册说： -t The maximum amount of cpu time in seconds 貌似限制的是CPU最大执行时间，以秒为单位。为了验证上面的说法，我特地设计了以下的场景：我们首先运行一个死循环程序消耗CPU时间，同时把进程的最大CPU消耗时间设定在180秒，期待在这个时间点进程会被杀掉。

• 网站性能评测点

网站性能就是怎么用最短的时间将网页呈现出来，和用户进行流畅的交互，归根结底还是要看时间。 1、页面的加载时间 (1)、从在浏览器里按下回车键到页面开始出现的时间，相同站点在不同浏览器下这个时间会有所不同 (2)、所有资源下载完毕的时间 (3)、Css解析时间 (4)、触发浏览器onload事件的时间 2、资源的加载 (1)、所有的请求数 (2)、网页（html）的大小 (3)、图片/css/javascript的大小 (4)、异步请求的数量 (5)、坏请求的数量(重定向，服务器端错误等等) 3、网络耗费时间 (1)、DNS时间（查找域名对应的服务器IP耗费的时间） (2)、连接时间（向服务器发起连接时间） (3)、服务器时间（服务器端处理请求的耗费时间） (4)、传输时间（由服务器向客户端传输资源耗费时间）

• 复杂系统故障面面观

6月29日，Amazon EC2美国东部1号区域的一个availability zone遭大规模雷暴袭击而断电，该事故殃及了包括Netflix、Instagram、Pinterest在内的一大批服务，详情参见Amazon针对此次事故的官方报告。几天后，偶然在Channel 9上看到一篇文章，进而顺藤摸瓜找到了Richard Cook的这篇发表于1998年的How Complex Systems Fail。这篇文章总结了十八条关于复杂系统故障的经验，言简意赅却一针见血，读之让人击节叫好，大有拨云见日之感。回顾Amazon针对这次事故的官方报告，以及自己在过去若干年间遇到的种种线上事故，几乎无不落入这十八条之内。这篇文章并没有将视线局限在技术领域，而是从系统、从业人员、事故评估等一系列角度全方位地探讨了复杂系统故障的性质，点破了复杂系统中的一系列“潜规则”。

• 关于squid请求源服务器的响应中带Vary头

关于squid请求源服务器的响应中带Vary头

• KVM 中搭建 VLAN 和 IPv6 环境

普通的 IPv4 环境很简单，如果你使用 virt-manager 的话它自动都给你搭好了。每个 kvm guest 都在同一个子网内，通过 bridge 连接到一起，然后通过 host 上的 NAT 访问外网.....

• Nginx默认虚拟主机如何在server中添加

Nginx默认虚拟主机在用户通过IP访问，或者通过未设置的域名访问（比如有人把他自己的域名指向了你的ip）的时候生效最关键的一点事，在server的设置里面添加这一行： listen 80 default; 后面的default参数表示这个是默认虚拟主机。这个设置非常有用比如别人通过ip或者未知域名访问你的网站的时候，你希望禁止显示任何有效内容，可以给他返回500.目前国内很多机房都要求网站主关闭空主机头，防止未备案的域名指向过来造成麻烦。

• 如何跳过服务器启动时候的fsck

好几次服务器重启，都被卡在了fsck磁盘自检，有时候几个小时都没法完成自检。虽然说自检能够保证数据的安全性，但是对于生产环境，服务的可用性是第一位的，有时候重启服务器，几个小时访问不了真是急得让人双脚跳。如何跳过这个恼人的fsck步骤呢？搜索了一下发现其实方法很简单，只要修改/etc/fstab中，最后的那一项，将它从2，修改成0就可以了。官方文档上是这样写的： Controls the order in which fsck checks the device/partition for errors at boot time. The root device should be 1. Other partitions should be 2, or 0 to disable checking.