DevOps

共 871 篇文章

IT 2026-06-21 19:10:45 / 累计浏览 137

百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形

baize 是百度开源的毫秒级网络监控工具，针对传统监控难以捕获的偶发性轻微丢包和比特翻转问题设计。它通过每秒5000包的高频探测，实现0.1%丢包率的精确检测，统计窗口可调至100ms。核心特性包括ECMP全路径覆盖，利用确定性端口轮转算法探测所有哈希路径；无需时钟同步的单向丢包检测，通过携带上一窗口发包信息在Server端无状态还原，避免NTP依赖；以及互补比特翻转检测，使用四种salt填充模式精确识别校验和漏检的翻转。性能优化采用Raw IP Socket和BPF过滤器减少内核开销，20MB Socket Buffer应对突发，8路并行读和无锁设计确保高吞吐。工具采用JSON配置驱动，单进程双角色部署，支持批量自动化，内置pprof便于调试。典型应用包括集群间监控、机房间探测、混合云链路等场景，与临时排查工具bitflip互补，专注于长期持续监控，为网络运维提供细粒度数据支撑。

本机暂存

IT 2026-06-14 22:40:21 / 累计浏览 190

从零重建 macOS 开发机：可复现的环境初始化流程

本文提供了从零开始重建macOS开发机的完整可复现环境初始化流程。首先安装Xcode命令行工具和系统基础工具链，确保编译和开发基础。接着配置Homebrew包管理器，简化软件依赖管理。设置Oh My Zsh及自动补全插件，优化终端交互体验。基于gpg-agent统一托管SSH和GPG密钥，实现Git提交签名的集中管理，提升操作安全性。多语言运行时管理采用版本隔离策略：使用GVM管理Go版本，Miniforge处理Python环境，nvm管理Node.js版本，以及Bun作为JavaScript工具链。每个步骤均提供可执行命令、真实日志输出和验证方式，确保环境正确性。最后补充新设备到手后的系统初始化清单，涵盖隐私设置和基础配置。该方案强调可复用性和迁移性，适用于开发者快速搭建一致开发环境，支持设备更换或灾难恢复场景。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 71

git 拉取所有 branch 和 tag 到本地并推送到远程

本文详细讲解了在不使用 --mirror 选项的情况下，将源仓库的所有分支和标签拉取到本地并推送到新远程仓库的操作方法。首先，必须确保源仓库是正常的可工作仓库，而非裸镜像仓库，以保障数据完整性和后续可用性。步骤一：使用标准 git clone 命令克隆源仓库，创建本地副本并初始化默认分支。步骤二：通过 git branch -r 命令列出所有远程分支，以便识别需同步的内容。步骤三：执行 git fetch 命令获取所有分支和标签数据，确保本地仓库与远程完全同步。步骤四：为每个本地分支设置上游跟踪信息，并使用 git push 命令逐一推送到新仓库，注意保持分支名称一致性以避免冲突。这种方法适用于仓库迁移、团队协作或备份场景，能完整保留代码历史和标签信息，避免了 --mirror 创建裸仓库的限制，提供更灵活的开发环境。通过实践这些步骤，开发者可以深入掌握 Git 多分支管理技巧，提升代码维护效率。

本机暂存

IT 2026-06-14 00:54:06 / 累计浏览 70

一次 AWS VLESS + Surge 全链路部署的 agent 日志

本文记录了在 AWS EC2 实例上部署 VLESS 代理服务器的全过程，并整合 Surge 客户端进行网络规则配置和流量监控。通过分析 agent 系统日志，详细探讨了部署关键步骤，包括服务器初始化、VLESS 协议配置、Surge 规则编写、防火墙设置及性能调优。内容还涉及利用 AWS CloudWatch 进行日志聚合、Surge 高级功能如 MITM 和脚本编写，以及常见错误排查如连接超时和日志解析问题。文章提供了代码示例、配置文件模板和最佳实践，强调安全性和性能平衡，适用于需要稳定代理服务的开发者和运维人员，旨在提升部署效率和系统可靠性。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 192

How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide

本文针对私有CLI工具通过Homebrew分发时因权限导致的404问题，提供了一套完整解决方案。核心思路是解耦源码发布与资源分发：将编译后的二进制包与校验文件同步至公开的OSS/CDN，同时在公开的Tap仓库中托管自动维护的Ruby Formula。这确保了终端用户无需配置GitHub Token即可无缝安装与更新。方案详细阐述了前期准备（如Tap仓库创建、打包规范）、GitHub Actions自动化流水线的关键实现——该流水线能自动根据OSS上的资源生成指向最新版和特定旧版本的Formula脚本。文章还重点分享了若干实践经验：必须在`def install`阶段明确指定额外资源目录的安装路径，以避免文件被Homebrew丢弃；以及如何通过为每次发布生成带有版本号的Formula文件（如`cli@0.4.9.rb`），来建立可靠的版本降级“后悔药”机制。最终，用户可使用简洁的`brew tap`与`brew install`命令进行安装、更新与版本切换。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 73

WARNING: detected duplicate paths to the same disk导致crs无法正常启动故障解决

该文章是一篇Oracle RAC集群故障排查案例，详细分析了因错误配置ASM磁盘发现字符串导致的集群无法启动问题。故障根源是管理员将asm_diskstring参数设置为包含系统设备映射符号链接的路径（如/dev/dm*和/dev/mapper/*），导致ASM在发现磁盘时检测到同一物理磁盘的重复路径（如/dev/mapper/mpathi与/dev/dm-3），进而无法挂载投票磁盘组（CRS），致使集群资源管理器（CRS）启动失败。解决该故障的核心步骤包括：首先，通过创建一个仅包含正确磁盘路径（如/dev/mapper/*）的临时pfile，然后基于此pfile重新创建ASM SPFILE，以自动更新GPnP配置文件中的DiscoveryString和SPFile路径。此操作会清除原有的投票磁盘信息，因此修复后需使用kfed工具验证磁盘头信息，并通过crsctl replace votedisk命令重新配置投票磁盘。最终，集群得以正常启动。文章强调了正确配置asm_diskstring的重要性，并提供了通过重建SPFILE来修正配置错误的完整技术方案。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 54

从企业版 Istio 迁移到社区版：一场给高速行驶汽车换轮胎的实践

针对腾讯云企业版Istio停止维护的情况，团队需将服务网格迁移至社区开源版，此过程如同为高速行驶的汽车更换轮胎，风险极高。为确保可靠性，迁移采用了双控制面并行与按namespace灰度切换的策略：在集群内同时运行企业版和社区版控制面，通过istio.io/rev和usergroup标签驱动sidecar注入版本，并利用discoverySelectors实现控制面隔离，仅感知特定标签的namespace，保障并行环境互不干扰。迁移中深入源码验证关键机制，包括MutatingWebhookConfiguration如何根据namespace标签动态匹配注入版本、discoverySelectors的实时过滤与证书自动下发逻辑，以及ALLOW_ANY流量策略确保跨控制面互通。实践遇到了证书不匹配、503错误等问题，通过调整标签和确保discoverySelectors配置解决。AI技术被用于辅助分析Istio源码，快速定位逻辑并验证方案可行性，提升了高风险变更的把控能力。整体迁移依赖详细的检查清单和渐进式操作，最终实现了控制面平滑过渡与流量安全切换。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 62

Terraform 极简入门：从 AWS-CLI 到基础设施即代码（IaC）

在云原生开发中，基础设施管理常陷入两难困境：AWS控制台操作直观但难以复现且缺乏审计，SAM等专用工具对复杂资源支持有限。作者通过实际Serverless项目经历，对比了三种主流方案：控制台手动配置导致多环境部署耗时且配置来源不清；SAM在管理VPC、高级IAM策略时力不从心，形成“混合打法”增加复杂度；而Terraform通过基础设施即代码，实现了资源状态的版本化与声明式管理。关键转折点在于Terraform的“配置漂移”检测能力。当有人通过控制台修改路由表后，`terraform plan`能立即发现实际状态与代码定义的偏差，从而有效锁定基础设施的“期望状态”，这是手动操作无法实现的可靠性保障。实践中，作者最终采用分层架构：Terraform负责核心云资源（如VPC、S3、IAM策略）的拓扑定义与状态管理，确保基础设施的确定性；Lambda等应用代码的频繁迭代则通过GitHub Actions与AWS CLI在CI/CD流水线中处理。这种组合既发挥了Terraform在基础设施状态管理上的优势，又兼顾了应用部署的敏捷性，体现了工具选型中“各司其职”的实用主义思路。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 63

对 tail -f 使用管道

在使用 `tail -f` 监控日志文件时，若将输出通过管道传递给 `grep`、`sed` 或 `awk` 等工具，经常会遇到管道程序被卡住、无输出的情况。其根本原因在于这些文本处理工具默认采用了缓冲区机制。当它们判断输出目标不是交互式终端（TTY）时，会将数据暂存在缓冲区中，而非立即输出，这就导致了监控流被阻塞的假象。通常情况下，通过管道连接 `cat` 命令时不会遇到此问题，这是因为输入管道被关闭时，会触发缓冲区的刷新（flush）。要解决此问题，核心思路是需要让 `sed`、`awk` 等工具在执行时禁用缓冲或强制立即刷新输出。常见的方法包括为相应命令添加特定选项（例如 `awk` 的 `-W interactive` 或 `sed` 的 `-u` 选项），或者利用其他工具（如 `unbuffer` 或管道 `cat`）来强制输出为无缓冲的流，从而实现 `tail -f` 后内容的实时传递与处理。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 66

Linux 备份和恢复 docker volume 脚本分享

这是一组用于自动化备份与恢复 Docker 数据卷的 Bash 脚本。备份脚本（docker-volume-dump.sh）会遍历宿主机上所有 Docker 卷，使用一个轻量级的 Alpine 容器挂载每个卷，通过 `tar` 命令将其内容打包并压缩为 `.tar.gz` 文件，统一存储在指定目录。恢复脚本（docker-volume-restore.sh）则反向操作，它会遍历备份目录，检查同名卷是否存在（若存在则删除并重建），然后再次利用 Alpine 容器将压缩包解压并写入到对应的数据卷中。整个方案利用容器作为隔离的操作环境，无需在宿主机安装额外依赖，实现了对 Docker 持久化数据的便捷备份与灾难恢复，适用于需要定期保存数据库、应用配置等关键卷数据的运维场景。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 80

ArchLinux pacman 一键找到最快的镜像源清单

该教程提供了一种通过单条命令自动为中国ArchLinux用户筛选最优镜像源的方法。核心步骤是执行curl命令，从archlinux官方获取筛选出的中国（CN）区域、支持HTTPS协议的镜像列表。随后，通过管道将结果传递给rankmirrors工具进行测速，最终自动提取出响应速度最快的5个镜像。完成筛选后，用户只需将生成的镜像列表配置到系统的`/etc/pacman.d/mirrorlist`文件中，即可完成更新源的优化，从而有效提升软件包下载与更新速度。此方法利用自动化脚本，替代了手动测试和编辑列表的传统流程。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 62

k3s 容器 mirror 配置方法

这篇讲的是如何在 k3s 集群中配置容器镜像源的 mirror，核心思路是借助私有镜像仓库（如 Harbor）来加速或稳定访问 docker.io、registry.k8s.io 等国际源。作者的方案很直接：通过编辑 k3s 的 `registries.yaml` 配置文件，为每个目标镜像源指定私有仓库的 endpoint，并利用 `rewrite` 规则将原始镜像路径重写为 Harbor 中的项目路径。例如，将 `docker.io/library/nginx` 的请求重写到 `harbor.xxx.me/mirror-dockerhub/library/nginx`。配置的关键细节在于灵活运用正则表达式进行路径替换。同时文章也贴心地提到，如果私有仓库中的镜像组织方式与原始路径一致（比如使用原生 registry 镜像），那么只需配置 endpoint，可以省略 rewrite 部分。对于需要从国内环境稳定拉取海外镜像的用户，这个基于 k3s 原生配置的方案提供了一个清晰、可复用的参考模板。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 60

Archlinux KDE Apache JMeter 配置高分屏缩放

在 ArchLinux KDE 环境下，通过 yay 包管理器安装 Apache JMeter 虽然简便，但在高分辨率显示器上运行时，其图形用户界面会出现字体和图标过小的问题。该问题源于默认的 UI 缩放设置不适配高分屏。解决方法是在启动 JMeter 时，通过设置 JVM 参数 `JVM_ARGS="-Dsun.java2d.uiScale=200%"` 来手动指定缩放比例（例如200%），以强制适配高分辨率显示。此参数能够调整 Java 2D 渲染管线的缩放因子，从而有效增大界面元素尺寸，提升可读性与操作便利性。用户可将该参数直接写入自定义的启动脚本中，实现一劳永逸的配置。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 77

让 Claude Code 在你睡觉时持续运行：完整实战指南

本文提供了实现 Claude Code 无人值守长时间运行的完整技术方案。核心在于组合使用 `-p` 非交互模式、细粒度工具白名单（`--allowedTools`）以及成本控制参数（`--max-turns`、`--max-budget-usd`），并推荐采用更安全的 `--permission-mode auto` 作为折中。实战验证的“Ralph Wiggum”循环模式通过一个包含详细架构与任务上下文的 PROMPT.md 文件，驱动 Claude 自主检查任务、实现代码并提交。为防止会话卡死或执行破坏性操作（如 `rm -rf`），文章重点介绍了四个关键 Hook：阻止等待人工输入的 No-Ask-Human、监控上下文使用量的 Context Monitor、编辑后即时检查语法的 Syntax Check，以及标记危险命令的 Decision Warn。同时，必须在 Docker 容器中运行 `--dangerously-skip-permissions` 模式以隔离风险。维持运行环境需要使用 tmux 进行会话持久化，并配合系统命令防止设备休眠。上下文管理是成功关键，需将 CLAUDE.md 控制在精简，并主动使用检查点文件（如 `tasks/mission.md`）保存状态，以防上下文压缩导致信息丢失。此外，应利用夜间非高峰时段运行以避免速率限制，并通过 `--model sonnet` 降级控制成本。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 89

在 Github 中通过创建 issue 来唤醒 claude 工作

本文详细介绍了如何通过 GitHub Actions 将 Claude AI 集成到代码仓库中，以实现通过创建或评论 issue 来触发 AI 交互的功能。实现分为两种主要路径：一是安装官方的 Claude App，操作快捷；二是创建自定义的 GitHub App，适用于组织策略限制或需要更精细权限控制的场景。核心配置步骤包括在仓库设置中添加用于认证的 Secrets（如 ANTHROPIC_API_KEY），以及创建特定的 Workflow 文件（如 claude.yml）。Workflow 文件定义了触发条件（如 issue 评论或 PR 审查中包含 @claude），并设置了严格的权限控制和安全机制，例如限定触发用户身份、对 Bash 工具使用命令前缀白名单等。文章特别强调了安全配置清单，包括使用 actor 白名单进行双重验证、最小化 permissions 授权、以及妥善管理 API 密钥，以防止未授权访问和权限滥用。最后，通过在 issue 中输入 @claude 进行验证即可确认配置是否生效。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 78

DEB 和 RPM 有什么区别

这篇讲的是Linux里两种主流软件包格式——DEB和RPM——的核心差异。作者从基础定义入手，指出它们分别服务于不同的发行版生态：.deb主要用于Debian及Ubuntu等系统，.rpm则是Red Hat、openEuler等系统的标准。文章用表格清晰对比了两者的关键区别。比如在管理工具上，DEB系用dpkg做底层、apt做高层依赖解决；RPM系则对应rpm和yum/dnf。内部结构也不同：.deb本质是ar档案，包含control和data两个tar包；.rpm则是用CPIO封装的专用格式。在系统集成方面，RPM系更侧重企业场景，与SELinux、Firewalld等安全特性结合紧密，数字签名也起步较早。最后作者对比了典型使用场景：.deb多见于个人桌面和国产操作系统（如麒麟桌面、统信桌面），更新快、社区活跃；.rpm则更多用于服务器和企业环境，强调长期稳定支持。简单说，选哪种格式，本质上取决于你用的是哪个发行版——背后是整套工具链和系统设计理念的不同。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 68

PostgreSQL Docker镜像大版本升级

针对PostgreSQL 14官方支持即将到期及所用PostGIS镜像版本（14-3.2）的后续维护问题，本文详述了如何在Docker环境中将数据库从14版本升级至17版本。作者澄清了Docker容器内同样可以使用pg_upgrade工具进行大版本升级。升级流程主要分为三个阶段：首先进行周密准备，包括停止旧容器、打包备份旧数据卷、从旧容器中拷贝出PostgreSQL 14的二进制文件（lib与share目录），并使用新版本镜像初始化空的新数据目录。核心的升级步骤是通过一条挂载了旧数据、新数据以及旧版二进制目录的Docker命令，以postgres用户运行目标版本镜像中的pg_upgrade工具，指定新旧数据目录和二进制路径来执行升级。升级完成后，需要执行清理与优化工作，包括重命名新数据目录、启动新版本容器、运行vacuumdb命令分析优化数据库统计信息，确认无误后方可删除旧容器及相关的数据、二进制备份文件。整个过程提供了一套可在容器化部署中安全完成数据库跨大版本升级的可操作方案。

本机暂存

IT 2026-06-03 09:03:23 / 累计浏览 59

使用 flock 解决 Git `unable to read tree` 问题

在CI/CD环境中，多个进程或脚本并发操作同一个Git仓库时，常因元数据损坏或锁冲突导致“unable to read tree”错误。Git并非为高并发本地操作设计，因此需要解决并发问题。有效的方法是通过加锁机制让Git操作串行执行，flock工具为此提供了简单高效的解决方案。 flock属于util-linux套件，大多数Linux发行版已预装，若未安装可通过apt或yum等包管理器安装。macOS默认不包含flock，但可通过Homebrew安装兼容版本。在CI服务如GitHub Actions中，可在任务步骤中预先安装flock以确保可用性。使用flock时，基本语法为

本机暂存

IT 2026-06-03 09:03:23 / 累计浏览 63

使用 grep 查找关键字并显示上下文行

在日志排查场景中，grep 内建的上下文显示功能能有效替代手动使用 sed 等命令提取行范围的繁琐操作。通过 `-C`（两侧上下文）、`-B`（之前上下文）和 `-A`（之后上下文）这三个核心参数，可以灵活控制输出关键字所在行前后指定的行数。结合 `-n` 显示行号、`--color` 高亮匹配、`-i` 忽略大小写以及 `-E` 扩展正则等常用选项，能显著提升定位与分析问题的效率。文章进一步建议将常用命令组合封装为 Shell 函数，并提及了通过 `less -R` 或 `fzf` 进行结果二次筛选的方法，以优化大规模日志下的交互排查体验。

本机暂存

IT 2026-06-03 09:03:23 / 累计浏览 57

清理阿里云自带的垃圾服务

阿里云为ECS实例预装了一系列默认服务，这些服务在低内存规格主机上常导致资源占用过高，引发内存不足（OOM）问题。本文针对512M内存主机出现的故障，详细介绍了卸载和禁用这些“自带垃圾服务”的具体方法。问题主要涉及三类组件：云盾安全客户端（AliYunDun）、云助手自动化工具（aliyun-assist）以及云监控代理（cloudmonitor）。文章提供了每类组件的官方卸载文档链接，并汇总了通过命令行彻底停止进程、删除服务文件和目录的完整步骤。例如，卸载云助手需执行停止守护进程、终止相关进程并移除目录等一系列命令。此外，文章更新补充指出，阿里云的默认Ubuntu镜像还启用了多个占用内存的系统级服务，如`tuned`性能调优、`multipathd`多路径设备管理以及`fwupd`固件更新服务等。针对这些，建议使用`systemctl disable`命令将其禁用，以进一步释放系统资源。通过执行上述卸载和禁用操作，可以显著降低主机的后台资源占用，有效解决小内存实例因服务进程过多导致的内存溢出问题，恢复系统稳定运行。

本机暂存