DevOps

共 867 篇文章

IT 2014-11-30 23:26:11 / 累计浏览 2,021

实用命令行工具详解(二)—siege

这篇讲的是Linux下的负载测试工具siege如何模拟真实用户行为。文章开篇就点明了它与Apache ab的关键区别：siege能从URL列表随机请求，更适合仿真多用户并发负载，而ab则在追求极致性能基准时更精确。文章详细展示了siege的多种实战用法。比如，你可以用 `siege -c 500 -r 50 -f url.txt` 模拟500个用户重复请求50次；也可以用 `-t10M` 参数让压测持续10分钟。它甚至能从服务器的access.log中提取URL，用来复现历史访问场景，这对于重现问题非常实用。对于测试结果，文章逐一解读了输出指标，像“Transaction rate”即我们常说的QPS，“Response time”反映网络连接速度。最后部分还梳理了关键参数，如 `-c` 控制并发量、`-d` 设置请求间隔、`-l` 保存日志等，帮助读者根据自身环境灵活配置。整体上，这篇文章没有停留在理论介绍，而是通过具体命令和输出示例，手把手地带读者用起来。对于需要快速评估Web应用压力承受能力的开发者来说，这是一份清晰的速查手册。

本机暂存

IT 2014-11-30 23:22:44 / 累计浏览 1,901

基于DRBD的高可用NFS解决方案分析

这篇讲的是如何用 DRBD 和 NFS 搭建高可用文件共享方案的一次实践与踩坑。作者从分析 NFS 协议（特别是 NFSv4 对迁移和故障恢复的定义）出发，设计了一个方案：底层用 DRBD 实时镜像块设备，在其上建立文件系统，再通过 NFS 共享，期望在主机故障时能实现业务无感知的切换。按照这个思路，作者搭建了测试环境，模拟在线业务时进行 DRBD 倒换、NFS 重启和 IP 漂移。理论上，NFS 协议的“grace time”机制应该能处理服务端重启，让客户端用旧的文件句柄重新连接时依然能定位文件。但实际测试结果是：客户端报出“NFS句柄无效”的错误。作者分析指出，关键问题在于 DRBD 镜像的块设备在两台主机上各自挂载后，生成的 inode 分配并不一致。尽管文件系统数据完全一样，但 NFS 服务端是通过宿主文件系统看到共享目录的，当发生切换后，对端无法正确解析客户端原有的、基于旧 inode 信息构造的文件句柄，导致访问失败。文章最后也坦诚了验证未能完全成功，并提出了后续可以从 NFS 源码层面探索直接共享 DRBD 设备内容的思路。

本机暂存

IT 2014-11-28 23:11:42 / 累计浏览 4,524

存储基础知识之——磁盘阵列原理及操作实战

这篇文章从磁盘阵列的物理结构讲起，重点拆解了Linux环境下逻辑卷管理（LVM）的核心概念与实操流程。作者先用通俗比喻厘清了LUN（逻辑单元号）在SCSI寻址体系中的扩展作用，随后将LVM的三个关键层次——物理卷（PV）、卷组（VG）、逻辑卷（LV）——逐一剖析。文章没有停留在理论定义，而是直接进入实战环节：从用fdisk修改分区格式为LVM专用的8e开始，依次演示了如何初始化PV、创建并激活VG、以及最终在VG上创建LV的完整命令链。其中还穿插了管理场景的处理，比如如何为现有VG扩容、安全移除PV等。对于需要灵活调配存储资源的运维或开发人员，这篇文章把从硬件到逻辑层的概念关联和操作路径理得比较清晰，尤其适合想理解LVM实际用途的读者。

本机暂存

IT 2014-11-28 22:15:21 / 累计浏览 2,683

误删大文件的一个可能解救办法

这篇讲的是作者在服务器上误删一个10GB大文件后，如何利用Linux文件系统特性紧急抢救的过程。当时作者正在对镜像文件计算md5校验和，另一个窗口误操作执行了rm删除。好在大文件删除需要时间，作者迅速暂停了md5sum进程。关键点在于：Linux系统中，只要还有进程打开并占用着这个文件，即便已执行rm命令，文件数据也不会被立即清除。通过查看被暂停进程（PID 30888）在/proc文件系统中的文件描述符，作者找到了那个指向“已删除”文件的链接（/proc/30888/fd/3）。最后用简单的cp命令，就成功将文件内容复制出来保存为save.img，完成了数据恢复。文章还补充道，对于文本文件可以用grep尝试恢复，而exe、图片等二进制文件则可借助TestDisk、PhotoRec等专业工具。整个过程清晰地展示了Linux文件删除的底层逻辑和一个实用的应急技巧。

本机暂存

IT 2014-11-28 22:06:21 / 累计浏览 3,222

使用tar+lz4/pigz+ssh更快的数据传输

这篇讲的是，如何通过压缩管道来突破服务器间大文件传输的速度瓶颈。作者在之前优化SCP速度的基础上，进一步测试了结合不同压缩算法与SSH的方案。核心对比了lz4与pigz这两种高速压缩工具。在“打包-压缩-传输-解压-拆包”这一完整流程中，解压速度是最大的性能短板。lz4虽然在压缩率上略逊于pigz，但其解压速度达到了惊人的264MB/s，是gunzip的三倍，这使它在需要即时解压的传输场景中成为关键。实测结果显示，使用 `tar | lz4 -B4 | ssh` 的组合，传输速度从原始SCP的约40MB/s提升到了249MB/s。这意味着原本需要3小时的400GB数据迁移，现在仅需27分钟。文章不仅给出了最终可用的命令行方案，还分析了磁盘IO、网络带宽及管道开销等各环节的实际表现，并发现了调整lz4块大小（-B4）能对性能产生显著影响。对于运维和开发人员来说，这是一个非常实用且经过验证的加速技巧。

本机暂存

IT 2014-11-27 12:59:32 / 累计浏览 3,720

服务器运维：怎样优雅地切割log

这篇讲的是如何优雅地处理服务器日志切割的问题。作者从运维人员常遇到的困境出发，先吐槽了手动移动日志文件的粗暴方式及其风险，接着介绍了写空日志的改良方法，最终引出真正的解决方案——专用的logrotate工具。文章的核心在于，它不仅推荐了工具，更结合实际生产环境给出了配置思路。作者指出，简单的每日切割在高流量场景下会暴露新问题，比如压缩大量日志时可能瞬间占满CPU，影响服务响应。因此，他提出了一系列具体的优化建议：预估日志产生量、规划存储周期、谨慎评估是否压缩，并在必须压缩时，可以使用taskset和nice指令来分配CPU资源，避免影响业务进程。此外，针对单日志文件过大的情况，文章也提出了按大小或按小时切割的策略。整篇文章用平实的语言，将日志管理从“能用”提升到了“好用且稳健”的层面，给出了从工具选择到参数调优的完整思考路径。

本机暂存

IT 2014-11-26 23:04:19 / 累计浏览 1,707

yunbk-让备份变得更简单

还在为数据库和文件备份的手动操作感到繁琐吗？作者用 Python 开发了 yunbk 这个简洁的备份插件，让数据备份变得像写几行代码一样简单。它的核心思路是通过一个统一的 `with` 上下文管理器，在临时目录中完成所有备份文件的写入，调用 `backup()` 后便自动上传至配置的后端存储，最后彻底清理现场，不留痕迹。这个插件最大的优点是灵活性和易用性。通过提供本地、FTP、阿里 OSS 等多种后端适配器，开发者可以轻松地将 MySQL、Redis 等数据库，或是任意媒体目录备份到不同位置。文章中给出了几个清晰的代码示例，比如仅需几行就能完成 MySQL 全库的本地备份。作者还推荐结合 APScheduler 实现定时自动化备份，给出了一个完整的调度脚本，让整个备份方案更加实用和落地。

本机暂存

IT 2014-11-26 22:57:18 / 累计浏览 3,863

如何对待开发团队中那个拖后腿的人？

这篇讲的是团队中相对弱势的成员如何成为检验团队文化健康度的试金石。作者从自己多年参与不同团队的经历出发，分享了一个观察：优秀的开发团队往往都有一个“垫底”的成员，但关键不在于这个人的能力短板，而在于团队其他人如何对待他。文章用了一个生动的例子——在作者曾参与的志愿者团队中，有个叫Elliot的成员。他热心却总是把事情搞砸，没人会把关键任务交给他，但所有人都体谅他，帮他融入并贡献自己的力量。团队会私下叹气，但绝不容许外人欺负他。作者指出，这种相互尊重与包容的氛围，恰恰是团队和谐与高效的标志。相反，在不和谐的团队中，类似的成员容易被孤立和轻视，这会带来负面影响。文章认为，如何对待团队里“那个Elliot”，直接反映了团队的文化与领导力。商业组织和开源社区都能从中获得启发：关注成员间的互动方式，有时比单纯追求个人技术能力更能决定一个团队的长期健康与凝聚力。

本机暂存

IT 2014-11-26 22:45:01 / 累计浏览 2,501

用 LEK 组合处理 Nginx 访问日志

这篇讲的是作者在使用 Logstash 处理 Tengine/Nginx 通过 syslog 发送的访问日志时，遇到的几个实际性能瓶颈及优化方案。文章首先指出，在高压力下 Logstash 的 Grok 插件容易成为瓶颈，因此作者建议在日志格式可控时，优先考虑用分隔符格式配合 Ruby 脚本或自定义 LogFormat 来替代 Grok 解析。然而真正的坑在后面：运行后发现日志接收带宽异常低，排查发现是 Logstash 的 syslog input 插件采用了单线程 UDP 监听，导致接收队列（Recv-Q）持续堆积。作者对比了 Fluentd 的异步实现，并考虑到 Logstash 基于 JRuby 的扩展复杂性，最终选择了一个更直接的方案：用 Perl 的高性能 AnyEvent 库重写了一个专门的异步日志收集脚本。这个脚本同样将日志输出为 Elasticsearch 兼容格式，使得原有的 Kibana 仪表盘无需任何改动。最终效果立竿见影，日志接收带宽从瓶颈时的 60 MBps 恢复到了正常的 300 MBps。

本机暂存

IT 2014-11-25 23:13:16 / 累计浏览 2,281

core dump磁盘报警问题排查过程

这篇讲的是线上服务器磁盘突然报警的排查过程。作者从玩客项目一台机器分区占用超80%的告警入手，发现同批次其他机器都正常。通过 `find` 命令查找大于100M的文件，发现大量 `core.数字` 格式的文件，锁定了磁盘占用的元凶——core dump文件堆积。进一步用 `gdb` 分析其中一个core文件，明确是 php-fpm 进程（pool www）产生的崩溃转储。问题根因在于系统的 `core file size` 限制被设为 `unlimited`。通过检查 `/etc/security/limits.conf`，确实存在 `* soft core unlimited` 和 `* hard core unlimited` 的配置，导致php-fpm崩溃时会无限制地生成core dump文件。作者注释掉相关配置并重启php-fpm后，成功将core file size soft limit置为0，从源头禁止了生成。最后删除已有的core文件，将磁盘占用降至50%左右。一个实用的细节是，文章结尾提醒，有时即便在 `limits.conf` 中看到core设为unlimited，但通过 `ulimit -a` 查看实际生效的可能仍是0，排查时需注意。

本机暂存

IT 2014-11-25 23:08:47 / 累计浏览 4,281

OS X 支持 NTFS 读写

这篇讲的是如何用系统原生的方式，让 Mac 对 NTFS 格式的硬盘支持读写功能。作者从一个常见情况切入：明明 OS X 内核支持 NTFS 读写，但系统默认却只以只读模式挂载，导致很多用户需要借助第三方软件才能向 NTFS 分区写入数据。文章的核心方案是直接修改系统自带的挂载脚本。通过 root 权限将原始的 `mount_ntfs` 程序重命名，并创建一个新的脚本文件，在其中调用原始程序并强制添加读写（`rw`）参数。这个方法绕过了第三方工具，利用了系统自身潜藏的能力。作者在最后也提醒了两个实操要点：一是建议 NTFS 分区最好设置卷标，避免因默认的“未命名磁盘”导致挂载失败；二是指出网上流传的添加 `nobrowse` 参数的做法其实多此一举，正确理解 `-o` 参数的含义后，完全可以让分区正常显示在 Finder 侧边栏，无需额外折腾。整个方案简洁直接，适合希望用最小改动实现原生读写的 Mac 用户参考。

本机暂存

IT 2014-11-24 23:44:23 / 累计浏览 2,323

VirtualBox 虚拟机镜像文件 UUID 已存在问题

这篇讲的是VirtualBox使用中的一个常见陷阱：当你想把一个已用过的虚拟机镜像文件拷贝到另一台电脑时，VirtualBox会报错“UUID已存在”，阻止你直接加载。问题的根因在于，镜像文件自带的唯一识别码（UUID）已在原电脑的VirtualBox环境中注册过，系统不允许重复。文章作者亲身从USB盘加载虚拟机时碰到了这个坑。界面选项里找不到解决办法，但作者记起命令行可以搞定。具体的修复步骤是：打开终端，进入VirtualBox的安装目录，然后使用 `VBoxManage internalcommands sethduuid` 命令，紧跟VDI镜像文件的路径，为它重新生成一个全新的UUID。执行成功后，再新建虚拟机加载这个镜像文件，就能顺利运行了。对于经常迁移虚拟机环境的技术人员来说，这个用命令行“重置身份证”的小技巧很实用，能快速绕过这个报错，省去重新导出导入的麻烦。

本机暂存

IT 2014-11-24 23:42:47 / 累计浏览 6,562

mac系统更换硬盘及初始化开发环境的记录

作者从自己使用多年的MacBook Pro陷入频繁死机的困境出发，诊断发现是机械硬盘因长期不当使用（经常盖着盖子携带）导致硬件故障，通过TechTool工具确认硬盘SMART检查失败。文章详细记录了整个更换硬盘与重装系统的全过程：从准备新硬盘、制作Mac OS X Mavericks系统U盘，到拆机换盘、分区安装系统。其中特别提到数据恢复时踩的一个大坑——备份恢复后所有文件因换行符格式变化而显示为修改状态，最终通过硬盘盒直接从旧硬盘拷贝数据才得以解决。在初始化开发环境部分，作者逐步搭建了Xcode、iTerm2、Homebrew、Python、MacVim和MySQL等工具链，并分享了MySQL安装中的具体步骤与卸载方法，例如需要手动链接命令行工具并设置环境变量。整篇记录不仅提供了清晰的故障排查思路，还涵盖了从硬件维护到软件配置的实用细节，对面临类似Mac老机型维护的读者有直接的参考价值。

本机暂存

IT 2014-11-23 21:47:21 / 累计浏览 3,744

修改Linux网卡连接速度

这篇讲的是作者如何发现并解决内网Linux服务器上传速度异常缓慢的问题。服务器文件传输速度只有1MB/s，作者怀疑是网卡工作模式所致。通过 `ethtool eth0` 命令检查，果然发现网卡速度被锁定在了10Mb/s的低速模式，即使它支持100Mb/s。针对这个问题，作者使用了 `ethtool -s eth0 speed 100 duplex full` 命令，将网卡强制设定为100Mb/s全双工模式。调整后再次检查，网卡已成功切换到新的工作状态。最终实测文件传输速度达到了10MB/s，性能恢复正常。这篇文章简洁清晰地展示了一个常见的网络性能问题排查过程：从现象（速度慢）到诊断（查网卡模式），再到解决（调整速率参数），并验证了效果。对于运维人员或遇到类似网络瓶颈的开发者，这个用 `ethtool` 手动调整链路参数的方法，是一个直接有效的参考方案。

本机暂存

IT 2014-11-23 21:43:10 / 累计浏览 2,301

给Ubuntu添加Windows及Mac字体

这篇教程针对 Ubuntu 系统因开源授权而缺失部分优质字体的问题，提供了一个将 Windows 与 Mac 字体移植过来的完整方案。作者从实际需求出发，详细讲解了从字体文件的准备、筛选（提示需移除 .fon 与部分 .otf 格式），到创建系统目录、复制文件、修改权限，最后执行命令更新字体缓存的全过程。文章特别给出了每一步对应的终端命令，比如 `sudo mkdir`、`sudo cp` 和 `sudo fc-cache`，确保用户可以精准操作。完成这些步骤并注销系统后，即可在 Ubuntu 环境中流畅使用这些跨平台字体。整个方案直击痛点，步骤清晰，对于希望提升 Ubuntu 桌面视觉体验的用户来说非常实用。

本机暂存

IT 2014-11-23 21:35:24 / 累计浏览 1,605

监控Netstat中的TCP数据

作者从实际运维中遇到的netstat报错说起：当执行netstat命令时，若版本较旧可能触发“error parsing /proc/net/netstat”错误。解决方法是通过rpm确认netstat属于net-tools包，随后用yum升级即可修复。不过，文章的重点不止于故障排查，更延伸到如何有效监控TCP连接数据。作者指出，直接监控netstat -s输出的绝对值（如连接数、段收发量）在Graphite等工具中几乎是一条平直线——因为数值基数太大，微小波动肉眼无法识别。真正有价值的是捕捉这些数据的相对变化率。为此，他分享了一段可直接运行的Shell脚本，通过循环对比相邻时刻的TCP统计值，实时输出增量数据，让监控图表清晰反映系统的动态趋势。这篇文章从一个具体错误入手，最终给出了提升监控有效性的实用技巧，对需要关注TCP连接状态的运维人员颇具参考价值。

本机暂存

IT 2014-11-21 23:46:50 / 累计浏览 1,783

linux shell中”2>&1″含义

这篇讲的是Linux Shell中一个容易让人困惑的细节：标准错误重定向“2>&1”应该放在什么位置。作者从命令`/home/admin/demo.sh >/dev/null 2>&1 &`切入，直接点明了1代表标准输出，2代表标准错误，而“2>&1”的作用就是让标准错误也输出到标准输出指向的地方——这里是`/dev/null`，实现静默运行。文章的核心是对比了两种写法产生的截然不同的效果。`command > file 2>&1`会成功将标准输出和错误都重定向到文件中，因为错误重定向是在输出重定向到文件之后执行的。而`command 2>&1 >file`则会导致只有标准输出进入文件，错误信息仍然打印到终端。为了证明这一点，作者调用`strace`追踪了系统调用，清晰地展示了两者执行序列的差异：前者先打开文件，再依次重定向输出和错误；后者则先复制了当时的输出描述符（指向终端），然后才重定向输出到文件。这个底层的实现细节，彻底解释了为何重定向顺序至关重要。掌握这个小知识，能避免在编写脚本时因日志丢失或终端输出混乱而踩坑。Shell的执行顺序，确实值得多留一个心眼。

本机暂存

IT 2014-11-06 23:59:43 / 累计浏览 1,563

Xen 虚拟机的 NAT 网络配置

这篇讲的是Xen虚拟机配置NAT网络的实用指南。当只有一台物理服务器且仅有一个公网IP，却需要运行多个虚拟机上网时，传统的桥接模式就显得无能为力了——它把每个虚拟机都直接暴露在外部网络。而NAT模式能完美解决这个问题，让多个虚拟机共享这个公网IP访问外部，同时外部无法主动访问它们，形成一个更安全的内部网络。文章从桥接模式的局限性说起，清晰对比了NAT模式的适用场景。核心配置步骤其实不复杂，但有几个关键点：需要修改Xen的主配置文件（xend-config.sxp），将网络和VIF脚本切换到NAT和vif-nat；然后为每个虚拟机指定一个自定义的内部IP。一个巧妙之处在于，Xen自带的network-nat脚本已经自动处理了IP转发和iptables规则，省去了手动设置的麻烦。作者特别强调了初始环境要“干净”，因为Xen的脚本在复杂网络环境下可能配置失败。整个配置流程逻辑清晰，从主机到虚拟机逐层设置，对需要隔离网络或节省公网资源的管理员来说，是一份很直接的操作参考。

本机暂存

IT 2014-10-21 19:35:54 / 累计浏览 5,124

网络基础：路由表、默认网关和掩码等

这篇讲的是作者从一个具体的网络故障出发，剖析了路由表、子网掩码和默认网关的核心作用。问题很简单：两台服务器IP在同一子网，但其中一台的子网掩码被误配为255.255.255.224，这导致B在ping A时，根据错误的掩码计算，认为A不在本地网络，从而将数据包发给了网关。文章清晰地拆解了这一过程，说明了只要B端网关配置无效，通信就会失败。作者接着将问题延伸，讲解了路由决策的通用原则。比如，当主机配备多网卡时，若为每个网关都设置了默认路由，系统在回包时可能因无法决策而随机选择路径，造成网络时断时通的诡异现象。对此，文章给出的实用解决方案是：要么为特定外部网络添加精确路由，要么去掉非主要出口网卡的默认网关配置，避免路由冲突。这些细节对于理解日常网络配置中的陷阱非常实用。

本机暂存

IT 2014-09-22 22:00:12 / 累计浏览 1,962

linux下boot空间不足解决方法

这篇解决了一个常见的Linux系统痛点：当初为/boot分配了500MB独立分区，但随着多次系统升级，旧内核不断累积，最终导致空间耗尽、升级失败。文章作者从实际遭遇出发，先展示了`/boot`目录下堆积的旧内核文件（如vmlinuz、initrd.img等），并通过`uname -a`确认当前运行的内核版本。核心解决方案是使用`apt-get remove`命令有选择地卸载旧版本内核。作者特别提醒，刚升级的新版本可能不稳定，建议保留1-2个旧版本以备回退。文中通过`dpkg`命令列出了已安装的所有内核镜像包，然后演示了如何移除一个旧内核（linux-image-2.6.35-25-generic），并展示了操作完成后GRUB引导菜单自动重建的过程。最终，通过`df`命令验证，/boot分区成功释放出35MB空间（整个操作可释放约139MB），系统得以恢复正常升级。对于卸载后残留的“deinstall”状态，文章指出重启后再次执行卸载命令即可彻底清理。

本机暂存