DevOps

共 867 篇文章

IT 2014-09-17 13:37:30 / 累计浏览 4,065

Windows与Linux文件系统互访的几种方法

这篇讲的是如何让Windows和Linux像使用本地磁盘一样直接互访文件系统。作者从实际开发中的痛点出发：Windows编辑代码、Linux编译运行，来回拷贝太麻烦。文章指出，虽然Windows有CIFS、Linux有NFS，但二者不互通，好在Linux上已有CIFS的实现。文章主要介绍了两种通过CIFS协议实现互访的具体方法。一种是用开源的Samba软件在Linux上搭建服务端，配置共享目录并设置用户后，Windows资源管理器就能像访问局域网共享一样，直接访问Linux文件系统，甚至可以映射为本地盘符。另一种方法是让Linux作为客户端，去挂载Windows已经共享出来的目录。作者以Windows XP为例，详细展示了如何开启共享，并在Linux下使用mount -t cifs命令将远程共享挂载到本地目录。文章最后简单对比了两种方式的适用场景：Samba方案更适合需要频繁、便捷地从Windows侧访问Linux文件的工作流；而从Linux挂载Windows共享，则更适合那些主要工作空间在Windows，偶尔需要在Linux环境下编译或调试的场景。

本机暂存

IT 2014-09-15 14:16:17 / 累计浏览 1,681

在一个列表里选定主机名后直接 SSH 登陆

运维或开发人员常会遇到这样的场景：即使有配置管理工具，仍免不了需要手动SSH登录单台服务器排查问题。反复查IP、复制、切换窗口的操作既繁琐又容易出错。这篇文章介绍了一个简洁实用的解决方案：一个名为warp的Bash脚本。它的核心思路很直接——将常用服务器的主机名或IP地址整理在一个文本文件中，通过运行脚本即可调用Vi/Vim进行选择式登录。用户只需在列表中上下移动光标，按下回车便能自动完成连接，省去了手动输入的麻烦。 warp的设计亮点在于其灵活性。配置文件格式自由，支持使用注释（如“#”或“--”）对服务器进行分组和说明，既清晰又便于维护。工具本身仅是一小段脚本，无需复杂安装。更巧妙的是，如果同时选中多行，它还能配合csshx工具实现批量操作，进一步提升效率。这种将机械性操作自动化的思路，虽然工具简单，却能有效优化日常工作流，减少重复劳动。对于经常需要管理多台服务器的团队来说，是个不错的效率小工具。

本机暂存

IT 2014-08-13 12:33:03 / 累计浏览 2,743

Linux系统巡检常用命令

这篇讲的是Linux系统日常巡检的“工具箱”，作者把运维中最常敲的几十条命令按用途做了梳理。从用`uname -a`和`cat /proc/cpuinfo`摸清系统底牌，到用`free -m`、`df -h`、`top`实时监控内存、磁盘与进程状态，再到借助`netstat`、`iptables`、`ifconfig`快速扫描网络连通性与安全设置——几乎覆盖了服务器健康检查的所有关键维度。文章特别指出，像`uptime`和`cat /proc/loadavg`这样的组合，能让你同时看清系统负载与运行时长；而`ps -ef`配合`w`命令，既能看到全部进程，也能锁定当前登录的活跃用户。对于需要回溯问题的场景，`last`查看登录日志、`dmesg`排查硬件启动信息这些命令也都没落下。整份清单直接贴进终端就能用，省去了新手翻文档的时间，对需要快速上手Linux运维的人尤其友好。

本机暂存

IT 2014-07-15 23:43:20 / 累计浏览 4,865

tailf and tail -f

这篇文章从一个实际使用场景出发：用`tailf`查看大文件的新增日志时，发现没有输出，而改用`tail -f`却能立即显示。由此引出了对这两个命令核心机制差异的深入剖析。文章指出，二者的关键区别在于读取起点和检测文件变化的系统调用不同：`tailf`从文件开头逐步读取，通过文件名调用`stat`来检查文件变化；而`tail -f`则从文件尾部开始，通过已打开的文件描述符使用`fstat`进行检测。这个底层差异导致了具体行为的不同，比如在文件被删除时，`tailf`能感知到，而默认的`tail -f`则不知道。此外，文章还详细解读了`tail -F`选项（大写F）的工作原理——它通过周期性地尝试重新打开文件来兼顾对文件名变化的跟踪，是一个在`tailf`和`tail -f`之间的实用折中。最后通过`strace`跟踪的输出，直观展示了`tailf`使用`stat`与`tail`使用`fstat`的调用区别。对于经常需要监控日志文件的运维和开发人员来说，理解这些区别能帮助他们在不同场景下选择最合适的工具。

本机暂存

IT 2014-07-15 22:54:53 / 累计浏览 1,681

推动而不是靠拉动

这篇文章从团队协作中的常见现象切入，对比了“被动拉动”与“主动推动”两种截然不同的工作模式。作者通过两个生动的对话场景，描述了在大公司环境里，员工容易养成“等待指令”的习惯——不问背景、不管目标，只求完成分派的任务。这种“工具人”思维在创业团队中则会成为致命短板。核心观点鲜明：创业需要成员具备主人翁意识，主动为项目全盘负责，推动资源与协作，而非被动等待安排。文章指出，推动者最终能驾驭工具，而只会被拉动的人可能永远只是工具。作者还分享了团队推行的实践，比如基于项目的短站立会，以及强制提前沟通延期原因的机制，旨在通过制度帮助成员从“等任务”转向“要资源、明目标、控进度”。这篇短文对技术团队管理者和一线成员都有启发，它点明了在快速迭代的环境里，积极主动的协作文化往往比单纯的技术能力更能决定项目的成败。

本机暂存

IT 2014-05-27 23:01:41 / 累计浏览 8,322

Linux 常见高危操作

这篇讲的是Linux系统里那些容易被忽视却可能导致灾难性后果的操作。作者从日常运维中常见的危险命令入手，清晰地指出了三个典型“雷区”。首先是直接操作设备文件。像`echo " " > /dev/sda`或`dd if=/dev/zero of=/dev/sda`这样简单的命令，能瞬间破坏整个磁盘的文件系统与数据，且几乎无法恢复。其次是极具误导性的`rm -rf /$SOME_DIR_TOBE_DEL/`，一旦变量未赋值，就会变成删除根目录的“终极指令”。最后是重定向使用不当，错误的写法可能覆盖`/dev/null`，导致系统标准输出和错误流混乱，影响全局服务。文章没有复杂的理论，而是用具体命令示例揭示了风险根源——对命令和系统底层文件缺乏敬畏。它提醒每一位Linux使用者，在键入回车前务必确认命令含义，因为这些操作往往没有“撤销”选项。

本机暂存

IT 2014-05-27 22:52:42 / 累计浏览 2,946

cpuspeed和irqbalance服务器的两大性能杀手

这篇讲的是作者在性能测试中发现服务器CPU频率异常的问题。经过排查，发现根源是irqbalance和cpuspeed这两个服务在作怪。理论上，irqbalance能智能分配中断以提升性能或降低功耗。但作者指出，在实际的服务器环境中，它反而会扰乱CPU的负载均衡，成为性能瓶颈。而cpuspeed服务，即便在BIOS中设置了最高性能模式，它依然可能强行干预并锁死CPU的主频，对追求稳定高性能的服务器而言是个大坑。文章给出的解决方案非常直接：彻底停用并禁用这两个服务。作者还进一步分享了服务器运维的一个精简思路：在`/etc/rc3.d/`目录下，只保留crond、sshd、rsyslog和network等必要服务的启动链接，将其他所有服务移出默认启动列表，按需手动开启。这种做法能最大程度减少后台服务对核心业务的干扰。对于遭遇类似性能迷雾的运维人员，文中提供了具体可执行的命令和优化思路，避免了“CPU跑不满”的常见坑。

本机暂存

IT 2014-05-10 21:24:14 / 累计浏览 2,682

服务器批量执行工具 PSSH

运维或开发同学经常需要面对这样的场景：当服务器数量达到几十甚至上百台时，如何高效地执行统一操作？这篇文章介绍了一个实用的命令行工具——PSSH（Parallel-SSH）。作者从管理一个拥有60多台Ubuntu执行节点的Oracle Gird Engine集群的实际经验出发，展示了如何利用PSSH来简化批量管理工作。文章详细演示了PSSH的几个核心命令：用pssh批量执行命令查看所有服务器状态；用pscp将文件同时上传到多台服务器；用pslurp从服务器集群批量下载文件到本地不同目录；以及用prsync保持开发机与生产服务器间的数据同步。每个命令都配有清晰的输入输出示例，比如展示五台服务器（grid01至grid05）的同步操作结果，非常直观。除了展示功能，文章也提到了PSSH的一个替代方案：对于不排斥Python的开发者，也可以使用Fabric来编写脚本实现类似的批量任务管理。这为不同技术背景的读者提供了选择参考。对于管理大量服务器的运维工作来说，这个工具是个不错的选择。

本机暂存

IT 2014-05-10 21:23:40 / 累计浏览 1,681

跟我学Rsyslog

这篇讲的是日志管理工具Rsyslog的上手指南。作者从日志管理的重要性切入，提到业界热门的ELK三件套虽强，但自己更偏好快速上手的方案，由此引出Linux传统日志工具Syslog及其配置逻辑——通过Facility和Severity来分类和路由日志。面对Syslog在功能和性能上的不足，作者选择了当前多数发行版默认的Rsyslog。文章重点在于快速实践。作者以CentOS为例，演示了通过RPM安装Rsyslog、关闭旧Syslog服务、启用调试模式等基础步骤。核心部分结合一个具体场景——“将多台Web服务器的access日志集中到一台App服务器”，详细拆解了Rsyslog的工作流程（输入、过滤、输出）。通过配置示例，讲解了如何在Web服务器端用`imfile`模块读取本地日志，并通过TCP发送；在App服务器端则开启TCP接收、使用`omfile`模块和模板来汇总存储。文中还提及了`StateFile`的持久化策略，以及利用`omprog`模块进行更高级处理的可能性。作者最后也指出，Rsyslog的主要缺点在于版本间的兼容性差异较大，使用时需留意文档。整体而言，这是一篇注重实操、逻辑清晰的入门教程，适合希望快速部署集中式日志管理又不想陷入复杂生态的运维或开发人员。

本机暂存

IT 2014-04-29 22:34:12 / 累计浏览 2,649

Ctrl+S导致Putty或Xterm命令行无响应问题

这篇讲的是一个让很多用命令行的人都会心头一紧的瞬间：在PuTTY或Xterm里习惯性地按下Ctrl+S想保存什么，结果终端突然毫无反应，好像死机了。作者一针见血地指出了问题的根因——Ctrl+S在终端环境下默认触发了XOFF流控制，这会暂停终端的一切输出，但其实按键和命令都在后台默默执行。文章给出了解决这个“假死”问题的三个层次方案。最直接的是立刻按下Ctrl+Q，重新打开流控制，就能“唤醒”终端。想从根源上杜绝，可以在.bashrc配置文件中通过stty命令禁用这个快捷键的XOFF功能。而最巧妙的是“一箭双雕”的方案：不仅禁用了Ctrl+S的终端控制功能，还能通过额外的配置，让它在VIM编辑器里重新变回保存文件的快捷键，完美契合了用户的手指肌肉记忆。对于经常在命令行和编辑器之间切换的工程师来说，这篇文章提供了从急救到根治，再到功能自定义的全套思路，能有效解决这个烦人的操作习惯冲突。

本机暂存

IT 2014-04-07 22:54:21 / 累计浏览 4,241

no no no. 不要使用kill -9

这篇文章直接警告程序员不要滥用 `kill -9`。Perl 语言专家 Randal Schwartz 用“不要用收割机来修剪花盆里的花”来比喻，指出强制发送 SIGKILL 信号会粗暴地终止进程，使其完全丧失清理现场的机会。具体来说，进程将无法关闭网络连接、删除临时文件、通知子进程或重置终止状态。这就像强行中断一场手术，可能会留下损坏的文件或系统状态不一致，为后续运行埋下隐患。文章强调，正确的做法是优先发送更温和的 SIGTERM（kill -15），给进程一段处理善后的时间。如果它无响应，再考虑发送 SIGINT（kill -2）或 SIGHUP（kill -1）。只有在确认程序本身存在严重缺陷、完全无法响应时，才应该使用 kill -9 这最后手段。对于那些“卡住”的进程，文章建议先使用 `strace`、`ltrace` 或 `gdb` 等工具诊断其卡死原因，而不是直接“处决”。其核心观点是，通过信号与进程协作，是系统稳定性和可维护性的基础；粗暴地“一杀了之”恰恰掩盖了程序本身可能存在的问题。

本机暂存

IT 2014-04-07 22:45:49 / 累计浏览 5,503

Ubuntu 下Hash校验和不符问题的解决

这篇文章讲的是Ubuntu用户常遇到的一个头疼问题：运行`apt-get update`时弹出“Hash校验和不符”的报错。作者分析后指出，这通常并非系统故障，而是网络不稳定或连接特定软件源时数据同步出错导致的。针对这个由网络引发的根源，文章给出了两种切实的解决方案。一种是为APT配置HTTP代理，具体是通过Privoxy将已有的SOCKS代理转换过来，并给出了安装和配置的关键步骤，比如修改`config`文件中的`forward-socks5`行。作者还分享了一个意外发现：直接使用`apt-fast`工具来替代`apt-get`进行更新，往往能绕过这个问题，省去了配置代理的麻烦。对于同样被这个网络“幽灵”报错困扰的Ubuntu用户来说，这篇从实际踩坑出发的文章，提供了一套清晰的诊断思路和可立即尝试的解决办法。

本机暂存

IT 2014-03-20 23:06:07 / 累计浏览 4,224

web业务尽快升级到centos 6.4的理由

这篇讲的是，面对中国网络环境复杂、丢包率高的现实挑战，Web业务尤其是CDN系统如何通过升级操作系统来获得更优的网络性能。作者从CentOS 6.4的内核变化出发，重点剖析了几个关键的TCP协议层补丁。其中，RFC2988bis补丁将SYN包丢失后的重试时间从默认的3秒大幅缩短至1秒，显著降低了首次连接的延迟。而调整初始拥塞窗口（initcwnd）和接收窗口（initrwnd）大小，则减少了Web短连接场景下必要的TCP交互轮次，提升了数据传输效率，文章也给出了具体的配置命令。此外，Proportional rate reduction补丁优化了丢包后的恢复策略，使得拥塞窗口的减少更为平滑，降低了平均传输延迟。这些补丁主要源自Google的实践，能够直接提升业务在弱网环境下的响应速度和稳定性。对于运维和后端开发人员而言，这是一次了解底层网络优化如何落地到具体操作系统版本的实用参考。

本机暂存

IT 2014-03-20 23:05:36 / 累计浏览 4,241

linux单机根据ip查看流量

这篇讲的是在双线机房环境下，如何精确统计Linux单机上不同IP（如电信、网通）的独立流量。作者从实际运维痛点出发：一台机器绑定多个IP时，系统默认的流量监控工具无法区分各IP的收发数据量。通过调研无果后，他选择用SystemTap编写了一个内核级脚本，直接挂钩TCP的收发函数来按IP累加数据包大小。脚本运行后能清晰列出每个IP的接收与发送千比特数。作者也坦诚说明，该方案目前仅支持TCP流量统计，若服务器涉及UDP服务则数据不准，且SystemTap需要安装调试信息包。整体方案简洁实用，为类似场景提供了一个可直接复用的轻量级诊断思路。

本机暂存

IT 2014-03-20 23:03:09 / 累计浏览 4,121

SSH日常用法小例

这篇讲的是如何将SSH从“会用”提升到“用得顺手”。作者从最基础的命令行登录出发，逐步展示了如何通过配置文件别名、公钥认证和代理转发等一系列技巧，一步步把繁琐的登录过程简化到极致——最终实现“一次配置，处处免密”。文章特别对比了传统密码登录与公钥认证在便利性上的巨大差异。对于文件传输，作者不仅介绍了最常用的scp命令，并解释了-r和-C参数的作用，还推荐了sftp这个基于SSH的交互式工具，为不同场景提供了解决方案。其中，ssh -A代理转发用于跳板机的思路也很有启发性。作者用实际例子告诉我们，掌握这些小技巧，能让你在连接和管理多台服务器时，省去大量重复输入密码的时间，大幅提升日常工作效率。对于需要频繁远程操作的开发者和运维人员来说，这是一份非常实用的快速参考。

本机暂存

IT 2014-03-20 23:00:07 / 累计浏览 2,404

大量小包的CPU密集型系统调优案例一则

这是一篇典型的方案/架构类文章，作者从一个处理大量小数据包的生产系统调优实践出发，详细分享了将单网卡流量从100M提升至230M（预估可达480M）且CPU负载保持均衡的完整优化路径。核心方案围绕着“硬件选型与内核调优”展开。作者首先强调了必须使用支持MSI-X和多队列的网卡，这是性能提升的硬件基础。在软件层面，他将操作系统从RHEL 5升级至RHEL 6.1，以利用其内核对Google RPS/RFS补丁的支持，从而将软中断负载均衡到多个CPU核心。此外，文章还详细说明了如何手动关闭irqbalance服务，并通过设置smp_affinity将网卡队列中断精确绑定到指定CPU，以实现更精细的负载控制。对于发送方向，作者也提到了利用内核2.6.38引入的XPS特性进行优化。整个调优过程有很强的数据支撑，作者展示了调优后单网卡承载15万/秒数据包、系统负载为0且各CPU核心均保有余量的生产环境截图，并解释了因网卡队列数与CPU数不匹配时，为何不能简单将中断广播到所有CPU，而需要采用物理/固定模式进行一对一绑定。文章为类似网游、CDN等“小包量大”的场景提供了一套可落地的系统性能挖掘手册。

本机暂存

IT 2014-03-19 23:04:03 / 累计浏览 3,804

linux下cp，mv进行动态库覆盖问题分析

这篇讲的是一个生产环境中典型的“隐形地雷”：明明只是想更新一个动态库文件（.so），为什么用 cp 命令覆盖后，正在运行的程序就莫名崩溃了？作者从一次周会讨论的问题出发，抽丝剥茧地分析了这个现象的深层原因。文章先厘清了 Linux 文件系统的两个关键概念：inode 存储文件元数据，dentry 建立文件名到 inode 的映射。核心分析由此展开：cp 和 mv 操作对正在被进程使用的文件影响截然不同。cp 命令本质是“打开目标文件并截断，然后写入新数据”，这个截断操作会通知内核释放该文件在内存中的所有页面映射。当程序再次执行到该库的代码时，会触发缺页中断，但因为原文件数据块已失效，内核无法正确填充内存，于是导致总线错误（bus error）或段错误（segment fault）。相比之下，mv 命令仅仅是重命名操作，只改变了目录项（dentry）的指向，并未影响文件本身（inode）及其内存映射，因此是安全的。文章通过 strace 跟踪和进程内存映射的视角，清晰展示了故障现场。结论很明确：对于已被进程动态链接的库文件，在线更新的正确姿势是 mv（将新文件重命名为原名），而不是 cp。

本机暂存

IT 2014-03-19 22:27:10 / 累计浏览 1,681

DNSv6和DNS64简单配置

这篇讲的是如何在Linux系统上配置IPv6环境下的DNS服务，特别是DNSv6和DNS64功能。作者从上一篇DHCPv6的部署延伸出来，直指DNS作为互联网入口在IPv6时代的重要性。文章以Bind服务为例，给出了清晰的实操路径。它从最简单的源码安装开始，然后聚焦于核心配置：如何让DNS监听IPv6地址（`listen-on-v6`指令是关键），并配置了测试用的IPv6地址段。配置过程还包括了关闭防火墙、设置SELinux等便于测试的准备工作，同时提醒线上环境需合理配置安全策略。最终，文章提供了一个精简的主配置文件（`/etc/named.conf`）示例，让读者能快速抓住启用IPv6 DNS服务的配置要点。整体而言，这是一篇步骤明确、重点突出的配置指南，适合需要快速上手IPv6 DNS服务搭建的运维人员参考。

本机暂存

IT 2013-11-19 23:19:55 / 累计浏览 4,002

Intel 10-GbE 网卡性能优化[翻译]

这篇翻译文档详细拆解了如何将一块 10GbE 网卡的性能从默认的“可用”状态压榨到“极限”。作者指出，Linux 的默认网络栈配置（如缓冲区大小、TCP 内存分配）是为了可靠性而非峰值吞吐量设计的，这对万兆网卡尤其不利。文章的核心思路是分层优化，并基于 Intel 官方驱动文档提供了实操步骤。优先级最高的操作是在交换机和服务器两端启用巨型帧（MTU 9000），这能大幅提升大流量传输效率。其次是调整内核的 `sysctl` 参数，例如关闭 SACK 和时间戳、将 TCP 收发缓冲区统一设为 10MB，并提高网络设备积压队列上限。更进阶的操作是通过 `setpci` 命令调整网卡 PCI-X 总线的 MMRBC 寄存器，将内存读块大小提升到 4KB，以增强对突发流量的处理能力。文章最有说服力的部分在于其测试数据：经过上述优化，使用 `iperf` 测试的吞吐量从优化前的约 4.70 Gbits/sec 飙升至 9.90 Gbits/sec，几乎跑满了万兆带宽。作者强调，优化过程需配合压力测试（如 iperf、netperf）来验证效果，结果可能因硬件和网络环境而异。对于需要榨干网卡性能的 HDFS、高性能计算等场景，这套调优方法提供了清晰的参考路径。

本机暂存

IT 2013-11-06 23:28:21 / 累计浏览 5,320

加速scp传输速度

这篇讲的是如何突破scp文件传输的速度瓶颈。作者在实际场景中发现，默认配置下传输400GB文件耗时太长，于是系统性地测试了加密算法、压缩选项和完整性校验算法对速度的影响。测试数据表明，选择更轻量的加密算法（如arcfour128、aes192-cbc）能显著提速，通常“越弱”的算法速度越快。有趣的是，启用ssh内置压缩反而常常拖慢速度，因为压缩本身消耗了时间，除非传输的是可压缩率极高的数据。此外，使用umac-64这类校验算法也比默认的hmac-md5带来约10%-20%的性能提升。基于这些发现，作者建议直接尝试类似 `scp -c arcfour128 -o "MACs umac-64@openssh.com"` 的命令组合，往往能让传输速度翻倍。文章提醒，最终效果高度依赖数据类型和网络环境，关键在于根据实际情况做针对性调优。

本机暂存