系统运维 -- IT技术博客大学习 -- 共学习共进步！

近来大家在安装最新的 MogileFS 时,会发现测试的时候,怎么样复制文件的过程都不正常.使用 telnet 到 7001 中使用 !watch 来查看时会不断的报下面的错。

• MooseFS之虚拟机惹的祸

MooseFS的Master是单线程的程序，并不能发挥多核CPU的优势，由于大部分的处理逻辑都是内存操作，因此并不会存在太大的问题，但一旦涉及到磁盘I/O就有可能导致阻塞，严重的话整个集群会瘫痪掉，因此不建议把Master放在虚拟机中。

在Hadoop集群从1.0升级到2.0之后，我们一直在解决很多很多的问题。在今年8月初，我们检测到线上频繁有机器变成死亡结点，一段时间后自动恢复。进入死亡结点状态的DataNode将不能读写数据块。我们观察了一下日志，看到DataNode中打印出很多接受数据快传输的线程(DataXceiver)，线程都是在Receiving的状态，而没有结束。估摸了一下在死亡结点发生的阶段大约有300个左右的线程积累下来。但是，没找到其它突破口。

• 使用 lsyncd 同步本地和远程目录

自动同步本地服务器(或 VPS)上的目录到另一台或多台远程服务器的办法和工具有很多，最简单的办法可能是用 rsync + cron(参考：用 VPS 给博客做镜像)，这种办法有个问题就是 rsync 只能在固定时间间隔里被 cron 调用，如果时间间隔设的太短，频繁 rsync 会增加服务器负担；如果时间间隔设的太长，可能数据不能及时同步。今天介绍的 lsyncd 采用了 Linux 内核(2.6.13 及以后)里的 inotify 触发机制，这种机制可以做到只有在需要(变化)的时候才去同步。lsyncd 密切监测本地服务器上的参照目录，当发现目录下有文件或目录变更后，立刻通知远程服务器，并通过 rsync 或 rsync+ssh 方式实现文件同步。lsyncd 默认同步触发条件是每20秒或者每积累到1000次写入事件就触发一次，当然，这个触发条件可以通过配置参数调整。

• Git subtree 要不要使用 –squash 参数

Git submodule 的繁琐似乎是世人皆知了，所以我用 subtree 来解决上面的包含关系。即：在 Gregarius 中以 subtree 的方式管理 MagpieRSS，然后在 MagpieRSS 中以 subtree 的方式管理 Snoopy。问题的产生 subtree 处理多层包含是没有问题的，因为包含进项目之后，别人根本看不出这是一个 subtree，所以它本质上还只是管理本地 repo 的一种方法。使用 Git subtree 新建或更新子项目的时候，可以选用 --squash 参数，它的作用就是把 subtree 子项目的更新记录进行合并，再合并到主项目中。

• 【翻译】用 elasticsearch 和 elasticsearch 为数十亿次客户搜索提供服务

我们非常高兴用 Elasticsearch 来保存我们的事件，也得到了试用新 API 和新控制面板中新日志页面的客户们非常积极的反馈。任意字段的可搜索对日志挖掘绝对是一种显著的改善，而 Elasticsearch 正提供了这种高效无痛的改进。当然，Logstash，Elasticsearch 和 Kibana 这整条工具链也非常适合内部应用日志处理。

• CentOS 上的 LNMP 一键安装工具 Centmin Mod

个人不推荐新手一开始就使用一键安装工具，一键安装工具隐藏了细节，不利于学习。不过自己动手配过几次系统、熟悉了 Linux 以后再回过头来看，使用一些一键安装工具还是很方便的，一键安装工具除了能安装必要的软件外还有一些附加功能，比如 “关闭 SELINUX”、“更改 SSH 端口”、“增加一个 vhost” 等。这里介绍的一键安装工具 Centmin Mod 是由原 Centmin 脚本改良而来，貌似原 Centmin 停止更新了。

• 使用 SysRq 键安全重启挂起的 Linux

最近有台 NFS 服务器挂机，可以 ping 通，但不能 ssh 登陆，也不能通过本地终端登陆，只能重启了。我们一般处理文件服务器这种类型的重启都格外小心，不到迫不得已不会直接硬重启。Linux 运行过程中（为了提高性能）会把大量的数据暂时放在内存缓存中，而不是实时同步写入到磁盘，Linux 根据情况只有在需要（触发某条件）的时候才写入磁盘，所以这个时候挂机，数据还留在内存，没有办法及时写到磁盘，强制断电重启会造成数据不一致、部分数据丢失、文件系统损坏等。

• 系统自动化配置和管理工具 SaltStack

我们的服务器由 Puppet 配置管理工具来管理，服务器上线后由 puppet 完成初始化和配置等一系列工作（比如，静态 IP 配置，DNS 设置，NFS/SAN 挂载，LDAP/Kerberos 登录，安全加固配置，内核参数优化，防火墙规则配置等等），等初始化完成后开始运行，运行一段时间后有一些需要自动和手动操作的任务（比如升级、重启、备份等），这时候我们使用 Fabric 来批量执行这些临时任务。

• 让进程在后台可靠运行的几种方法

我们经常会碰到这样的问题，用 telnet/ssh 登录了远程的 Linux 服务器，运行了一些耗时较长的任务，结果却由于网络的不稳定导致任务中途失败。如何让命令提交后不受本地关闭终端窗口/网络断开连接的干扰呢？下面举了一些例子，您可以针对不同的场景选择不同的方式来处理这个问题。

• DRBD远程实时双机热备系统配置完全手册

今天本来想按照之前的计划，分析一下drbd的源码，看到/proc/drbd文件的实现方式时，就想打开drbd服务切实看一下，结果发现几年前配置过的drbd已经不能再使用了，还是先把配置过程完整再尝试一下，以便记录在这里分享出来。

• 关于sqlite的事务的使用

sqlite是一个非常优秀的嵌入式数据库，读取性能非常好，写入性能就比较差一些，为什么写入性能差呢？下面做了一个测试。下面是对500+条记录些操作的系统调用的观察，发现时间基本花费在了fdatasync系统调用上，调用2064次；write系统调用虽然8049次，但是write并不保证逻辑，所以速度很快。

• Nginx与Gzip请求

前些天，移动端的同事跑来问：某些API需要传输大数据，Nginx服务器能否支持Gzip请求？一方面可以节省移动端流量；另一方面还可以加快传输速度，提升用户体验。对于Apache来说，利用SetInputFilter，可以很轻松的实现这个功能，那么Nginx如何做呢？既然移动端发送的是Gzip请求，自然需要想想如何在服务端解压缩。

• 数据的存储介质-磁盘的硬件特性

计算机是由硬件和软件组成的，而所有软件的唯一目标就是尽可能最大化的利用下层硬件能够提供的特性，完成上层的功能。所以才会有人说，硬件是骨头，软件是血肉，骨头决定生物的形态，软件决定生物的神态。不过，依然请放心，我们不会讨论复杂的东西，作为一个软件工程师，也没有人会要求我们去写一个磁盘存储器的硬件驱动代码~在这里，我们只讨论那些为了后面我们理解软件存储而锁需要掌握的硬件知识。

• 数据的存储介质-磁盘的RAID

要介绍 RAID技术的原因，其实是因为目前大部分分布式存储在做的事情其实 RAID在很多年前就已经做到了，所以如果你希望做存储相关的事情，那么 RAID是必须要理解，但不一定要用到的概念：)

• 数据的存储介质-固态存储SSD

可以预见，在未来，对于追求iops的数据读写类应用来说，将用户经常访问的热点数据全部从传统磁盘搬到ssd上面应该是个趋势。自此，磁盘将是新的磁带，闪存是新的磁盘，内存为王。

• 关于Rsyslogd 的一些配置 (高性能、高可用 rsyslogd)

最近公司的日志传输服务器因网间带宽被调整后出现了日志堵塞的情况，更为严重的是公司大量的业务日志也是通过 PHP 的 syslog接口传输的。这样，因为rsyslog的新版本默认不期望丢弃任何数据，而rsyslog中的日志又传输不出去，导致了业务在写日志的时候“被”堵塞住了。

• 闲扯Nginx的accept_mutex配置

Nginx缺省激活了accept_mutex，是一种保守的选择。如果关闭了它，可能会引起一定程度的惊群问题，表现为上下文切换增多(sar -w)或者负载上升，但是如果你的网站访问量比较大，为了系统的吞吐量，我还是建议大家关闭它。

• Linux内核协议栈对于timewait状态的处理

2.6.32 协议栈中修改了 twdr->slot + 1 的时机，每次必须完全释放一个slot中所有的timewait块后，才会进行 + 1 操作。这也就是说协议栈不保证在 TCP_TWKILL_PERIOD 周期内，移动一个格子，所以当系统繁忙时，会导致timewait块的等待时间大于 TCP_TIMEWAIT_LEN。

• SSDB 配置文件

SSDB 的配置非常简单, 附带的 ssdb.conf 你不用修改便可以使用. 如果你要高度定制, 还是需要修改一些配置的. 下面做介绍.