扶凯 -- IT技术博客大学习 -- 共学习共进步！

首页 / 扶凯

IT 2013-05-01 17:36:13 / 累计浏览 3,120

使用 AnyEvent 来实现同一个端口跑二种服务

这篇讲的是一个非常实际的网络访问问题：当 Linode 的 SSH 端口（22）被 GFW 过滤后，如何利用仍然开放的 80 端口，让同一台服务器同时提供 HTTP 和 SSH 两种服务。作者从这个痛点出发，实现了一个基于 Perl AnyEvent 库的协议识别与转发代理。核心方案在于对连接建立时发送的初始数据包进行嗅探。对于 HTTP 请求，开头通常包含“GET”、“POST”等关键字；而对于 SSH 连接，像 SecureCRT 或 Bitvise 这样的客户端会主动发送包含“SSH”字样的协议头。程序根据这个特征，将连接动态转发到本地对应的 80 或 22 端口后端服务。作者基于国外一个 Perl 实现进行了重写和封装，利用 AnyEvent 的事件循环特性来构建高性能的异步代理。最终效果就是，作者现在浏览的网页和远程管理都是通过这同一个 80 端口完成的。这个方案虽然牺牲了使用 CDN 的可能性，但在特定网络环境下，提供了一种巧妙且有效的端口复用思路。

本机暂存

IT 2012-10-26 22:18:44 / 累计浏览 2,840

项目管理中怎么做资源平衡

这篇讲的是项目管理中一个常被忽视的难点：资源平衡。作者从一个包含A到G七个作业的实际工程案例出发，清晰地展示了在进度管理中，计算工期和计算最少人力这两个任务在难度上的巨大差异。文章先用关键路径法快速得出结论——关键路径为B-D-F，项目最短工期为7周。但真正的挑战在于如何确定整个工程最少需要多少人。作者指出，在不推迟工期的前提下，关键路径上的活动不可变动，而非关键活动的安排则需要借助甘特图进行细致分析。通过将非关键活动（如A、C、E、G）在允许的时间窗口内合理排布，并对比各时段所需人力，文章最终推导出该项目最少需要10人。整个分析过程生动地揭示了：在理论上可行的进度方案，在资源受限的现实中可能需要复杂的权衡与计算。这对项目经理而言是一个非常实用的视角。

本机暂存

IT 2012-09-12 12:45:24 / 累计浏览 2,140

MogileFS 对大文件的支持

这篇讲的是作者使用 MogileFS 存储视频等大文件的实践经验与一个关键优化点。作者发现，MogileFS 本身对大文件支持不错，且文件越大，查询数据库的次数反而越少。不过，他特别提醒：在上传超过4GB的大文件时，必须对默认的客户端参数进行调整。只需在 `new_file` 方法中加入 `largefile => 1`，客户端就会自动切换到底层不同的上传模块，从而支持 chunked 和 partial (Content-Range) 分片上传。这个简单的参数调整能显著提升大文件在 MogileFS 中的存放速度，对于需要混合存储海量小文件与超大文件的源站场景，是个值得掌握的实战技巧。

本机暂存

IT 2012-07-30 23:53:24 / 累计浏览 1,860

MogileFS 中怎么删除主机

运维过程中难免会遇到硬件故障，替换机器后却卡在 MogileFS 的主机删除环节——系统默认会因为“设备不为空”而拒绝操作。这篇文章正是从这样一个典型场景出发，详细记录了在节点意外下线、并使用相同 IP 的新机器接管后，如何处理集群内残留的旧主机记录。作者首先还原了问题现场：直接删除会失败，提示设备列表非空。随后，文章没有停留在报错表面，而是深入解释了背后的机制：MogileFS 出于数据安全考虑，不允许直接删除还挂载着存储设备（devcount > 0）的主机。这实际上点明了根因，即旧主机的设备记录未被清理。针对这个需求，文章给出的解决方案并非直接修改配置或数据库，而是遵循 MogileFS 自身的管理逻辑。核心思路是分两步走：先通过管理接口标记并移除该主机上的所有设备，待设备记录清空后，再执行删除主机的操作。这个流程强调了操作顺序的重要性，也体现了对系统设计的尊重。文章篇幅不长，但像一份简洁的故障处理手册，把“为什么不能删”和“应该怎么删”都讲清楚了，对于同样使用 MogileFS 处理类似替换场景的工程师来说，直接参考这个步骤就能避开陷阱。

本机暂存

IT 2012-06-10 21:26:44 / 累计浏览 2,720

Linux 上双网卡单网关设置方法

这篇讲的是作者在实际业务中遇到的网络性能瓶颈问题。为了给 Cache 服务器增加 20% 的流量权重（原本在 800M-900M 波动），他计划启用第二块网卡来分担压力，但又不想做网卡绑定。在持续的性能监控中，他发现了明显的性能下降：图表显示后段数值持续走高，均值比前段高出约 17%。文章从这个具体的性能踩坑场景出发，深入剖析了在 Linux 系统中，仅配置双网卡但使用单一网关时可能引发的路由与负载均衡问题。作者没有回避问题，而是通过监控数据直观地展现了症状，并以此为引，详细分享了如何在不依赖复杂绑定（如 bonding）的前提下，通过调整系统路由策略和内核参数，实现双网卡在单网关环境下的有效协同工作，从而解决流量调度导致的性能衰减。最终，文章不仅给出了具体的操作步骤，更重要的是厘清了这类配置背后的网络逻辑，帮助读者理解在类似场景下如何避免“看似扩容，实则降效”的陷阱。

本机暂存

IT 2012-06-07 23:09:00 / 累计浏览 9,960

奇怪的 Nginx 的 upstream timed out 引起响应 502

这篇讲的是一个典型的线上环境 Nginx 502 错误排查案例。作者在运维 MogileFS 图片集群时，发现了大量 502 错误，Nginx 错误日志直指后端 upstream 连接超时。起初，排查方向聚焦在调整 Nginx 与后端服务的各种代理参数上，但问题依旧，一度让人无从下手。转机出现在查看系统日志时，发现了大量“nf_conntrack: table full, dropping packet”的告警。这揭示了问题的根源并非应用层处理能力不足，而是 Linux 内核的网络连接跟踪表（conntrack）已满，导致新的网络连接无法建立，从而引发超时和 502。最终，通过调整系统内核参数，包括提升 conntrack 表的最大条目数（nf_conntrack_max）和调整 TCP 连接超时时间（nf_conntrack_tcp_timeout_established），问题得以解决。这个案例提醒我们，在排查 Web 服务超时问题时，除了应用和中间件配置，也需要关注操作系统层面的资源限制。

本机暂存

IT 2012-05-28 12:30:20 / 累计浏览 4,120

怎么样让 LVS 和 realserver 工作在同一台机器上

这篇讲的是在资源有限的场景下，如何将 LVS 负载均衡（DR模式）与它背后的 realserver 服务（如数据库）部署在同一台物理机上，以节省硬件成本。作者在两台服务器构成的集群里，尝试通过 keepalived 实现 LVS 主从高可用，并希望负载和业务服务共存。但配置完成后，服务无法正常工作。核心矛盾在于，VIP（虚拟IP）同时配置在作为 LVS 和 realserver 的本机网卡上，导致了本地数据流在内核网络栈中的异常路由和重复发送。文中提供的架构图清晰地展示了这个问题：请求包（CIP->VIP）在本机被 LVS 处理后，又作为“外来”数据包被本机的 realserver 服务重复接收了一次，形成了环路。这篇文章并未直接给出最终的解决方案，而是像一篇“踩坑日志”，详细列出了问题现象、尝试的架构以及配置输出，将 LVS-DR 模式下的一个典型部署陷阱——“同机部署时的数据包回流与自环”——摆在了台面上。它邀请读者一起思考：在这种极致节省的架构下，到底该如何调整内核参数、网络配置或 LVS 规则，才能打破这个循环，让调度器和后端服务在同一台机器上和谐共存。这种对具体、细微问题的深入排查，对面临类似成本与架构权衡的运维和开发人员，有着直接的参考价值。

本机暂存

IT 2012-05-12 22:35:10 / 累计浏览 2,280

译文:在 Perl6 中相对于 Perl5 几个非常可喜的变化

这篇译文源自一篇英文博客，作者以初次体验 Perl 6 的视角，分享了几个相对于 Perl 5 的显著改进。文章从开发者常见痛点切入，对比了两个版本在语法、对象系统、性能及现代化支持方面的关键差异。在语法层面，Perl 6 引入了更一致的标点符号和更简洁的表达式，比如用明确的 sigils 标识变量类型，减少了 Perl 5 中因隐式上下文导致的歧义。对象系统则采用了基于角色的组合模式，取代了 Perl 5 中基于包的继承，使得代码更模块化、可测试性更强。性能上，Perl 6 通过虚拟机优化提升了执行效率，虽然启动时间可能稍长，但在复杂运算和长时间运行任务中表现更稳定。作者特别强调了 Perl 6 对 Unicode 的原生支持和并发编程模型的改进，这在多语言处理和高并发场景中尤为实用。文章通过具体代码示例和简单基准测试，展示了这些变化如何让代码更易读写和维护。对于正评估语言迁移的 Perl 5 开发者，这些实证对比揭示了 Perl 6 在表达力和工程化上的进化，或许能帮助权衡升级的收益与适应成本。

本机暂存

IT 2012-04-22 15:03:23 / 累计浏览 1,960

MySQL 不停服务来启用 innodb_file_per_table

这篇讲的是如何解决 InnoDB 存储引擎在磁盘空间管理上的一个顽疾。作者指出，虽然 InnoDB 功能强大且被广泛使用，但其默认设计将所有表的数据、索引和 undo 信息都塞进一个不断膨胀的 ibdata1 文件中，即使删除表，这个文件也不会收缩。这给运维带来了长期的空间管理难题。文章的核心方案是：在 MySQL 不停服、不影响业务的前提下，将现有的 InnoDB 表从共享表空间迁移到独立的表空间（即启用 `innodb_file_per_table`）。这避免了传统方案中需要停机维护或重建从库的复杂操作，极大降低了风险和操作成本。对于正在为 ibdata1 文件持续增长而困扰的数据库管理员来说，这篇文章提供了一套可直接落地的操作步骤，帮助他们在保持服务连续性的同时，获得更灵活、高效的表空间管理能力。

本机暂存

IT 2012-03-31 23:59:54 / 累计浏览 2,580

MogileFS 文件系统检查

这篇讲的是MogileFS——一个广泛使用的分布式HTTP文件系统——如何解决其独特的文件系统完整性检查问题。作者从一个核心矛盾切入：传统文件系统的离线“fsck”工具，在一个设计为高可用、持续在线的分布式存储场景下根本行不通。文章深入剖析了MogileFS为此设计的并行、在线、异步检查机制。关键在于，系统默认会对每个文件ID（FID）的存储状态进行核对，确保其在不同设备上的副本完整有效。这个过程巧妙地利用了分布式架构的特性，在后台异步执行，避免了阻塞正常的文件服务，实现了检查的自动化与无感化。对于运维大规模存储系统的工程师而言，这篇文章的价值不在于介绍一个新工具，而在于展示了如何为分布式系统设计一个健壮的自治理组件。它揭示了系统在没有全局锁的情况下，如何通过精巧的设计来保证数据的最终一致性，这对思考其他分布式系统的健康检查与数据修复机制很有启发。

本机暂存

IT 2012-03-31 23:31:30 / 累计浏览 3,280

MogileFS Rebalance(文件的重新均衡)

这篇讲的是当MogileFS分布式文件系统运行一段时间后，文件分布可能会因节点增减或初期策略而变得不均衡，导致部分存储节点负载过高。作者从实际运维中遇到的性能瓶颈出发，详细介绍了MogileFS自带的rebalance机制。文章核心阐述了rebalance的工作原理：它并非简单地在节点间移动文件，而是能根据配置的“rebalance policy”智能决策，例如优先迁移大文件、避开I/O高峰时段，或是针对特定域（domain）和设备（device）进行精细操作。文中具体展示了通过命令行触发任务后，系统如何计算并执行迁移计划，将负载重新均匀分配。通过这个过程，文章揭示了rebalance对于维持分布式系统长期稳定性的关键作用——它不仅解决了“数据倾斜”这一具体问题，更体现了系统设计时对可维护性的前瞻考虑。最终，均衡的文件分布保障了存储集群的高可用与读写性能，避免了因个别节点过载而引发的连锁故障。

本机暂存

IT 2012-03-25 21:22:04 / 累计浏览 7,240

SSD 寿命的检查和健康判断

这篇文章解决的是很多RAID用户的一个痛点：如何在没有官方工具的情况下，查看非Intel品牌SSD（比如Crucial、OCZ）的剩余寿命和健康状态。作者从自身使用的LSI MegaRAID SAS 1078/2108阵列卡出发，发现常规方法行不通。核心方案是借助两个关键工具进行组合查询：首先通过MegaCli从RAID卡层面获取底层硬盘的基本信息，然后再利用smartCtl这个更通用的命令行工具来读取并解读硬盘的S.M.A.R.T.详细数据，从而获得诸如写入量、通电时间、健康百分比等关键指标。整个过程被清晰地拆解为两步，并提供了具体的工具版本与下载地址。这不仅仅是一个理论说明，更像是一份可立即操作的手记，特别适合那些预算有限、使用阵列卡组合SSD的“折腾”型用户，填补了非Intel SSD在RAID环境下健康监控方法的空白。

本机暂存

IT 2012-03-12 23:32:28 / 累计浏览 1,640

配置 MogileFS 的 Slave

这篇讲的是如何为MogileFS分布式文件系统配置读从库（Slave），以应对元数据存储的读扩展需求。大多数MogileFS实例都将MySQL作为元数据存储后端，作者指出其优化路径与应对大型网站流量的思路一脉相承，因此无需过分担忧性能瓶颈。核心方案在于利用MySQL主从复制架构。作者推荐在从库（Slave）上承接读请求，以此水平扩展系统的读取能力。此外，文章还提到了结合Memcached等缓存层的进一步优化方向，为处理高并发读提供了多重技术选项。对于已经采用MySQL方案的团队来说，这是一条清晰且易于实施的性能提升路径，其思想也可迁移至其他类似的架构扩展场景中。

本机暂存

IT 2012-03-12 23:29:50 / 累计浏览 2,180

Centos(RHEL) 6 添加网卡的方法

这篇讲的是CentOS 6系统里一个很具体但容易被忽略的细节：如何让新加入的网卡被系统正常识别。文章开篇就点明了CentOS 6用户面临的一个常见痛点——曾经好用的kudzu硬件管理服务已经消失了。作者直接指出了问题的根源，即硬件管理机制已全面转向udev。文章的核心解决方案其实非常简洁：在添加物理网卡后，重启udev服务即可触发硬件识别。这背后体现的是CentOS/RHEL 6在硬件管理哲学上的一个重大转变，从一个独立的服务变成了由udev统一接管。作者没有停留在操作层面，还顺带提到了udev的背景，为想深入了解的读者提供了延伸阅读的方向。对于需要在CentOS 6环境下进行硬件运维的技术人员来说，这篇短文清晰地厘清了操作逻辑与底层原理的变化，避免了因系统机制迭代而可能产生的困惑。

本机暂存

IT 2012-03-11 22:19:49 / 累计浏览 4,020

在 MogileFS 中使用 Nginx

这篇讲的是如何在分布式文件系统 MogileFS 中引入 Nginx 来优化架构。作者的出发点很明确：Nginx 当前势头很猛，且对 MogileFS 的支持非常好、经过测试运行稳定，因此强烈推荐使用。文章具体指出了 Nginx 在 MogileFS 架构中能扮演的两个关键角色。第一个是充当面向用户的前端，负责处理查询请求并作为代理将请求转发到后端的 MogileFS 节点，这能提升访问效率和系统前端的承载能力。第二个更为核心，是使用 Nginx 替换掉 MogileFS 传统方案中用于存储文件的 perlbal 组件。作者通过推荐这个组合，实际解决的是 MogileFS 生产部署中对高性能、高稳定前端和存储代理的需求。核心方案就是以 Nginx 这一经过广泛验证的软件作为统一的接入点和存储服务替代品，最终达到提升整体架构性能和可靠性的效果。

本机暂存

IT 2012-03-11 22:19:14 / 累计浏览 2,720

主从同步失败,报错 1594

这篇讲的是一个MySQL主从同步中断的典型案例。作者从一起真实的故障出发，展示了从库复制线程因读取中继日志失败而停止的过程。故障现场非常清晰：从库的SQL线程在初始化后立刻因I/O错误中断，核心错误码是1594。错误日志详细给出了排查方向，直接指向中继日志的解析失败。作者指出，可能的原因包括主库的二进制日志损坏、从库的中继日志损坏、网络问题或代码缺陷。这篇文章的价值在于它没有停留在报错本身，而是提供了系统的排查思路。作者建议，首先要通过 `SHOW SLAVE STATUS` 确认当前涉及的日志文件名，然后分别使用 `mysqlbinlog` 工具去检查主库的二进制日志和从库的中继日志的完整性。这种从现象到可能原因，再到具体检查命令的剖析，为遇到类似“日志读取失败”问题的工程师提供了清晰的解决路径。

本机暂存

IT 2012-03-11 22:17:29 / 累计浏览 1,600

有关 MogileFS 怎么设置 memcached

这篇讲的是如何在分布式文件系统 MogileFS 中，合理利用 Memcached 进行性能优化。作者从“是否该用 Memcached”这一常见争议点切入，指出 MogileFS 其实已原生集成了对 Memcached 的支持。核心方案在于，配置 Tracker 节点使用 Memcached，来缓存频繁被请求的文件路径（get_paths 操作）。当客户端查询文件路径时，Tracker 会优先从 Memcached 中获取结果，只有缓存未命中时才回源到数据库查询。这种机制显著减少了 Tracker 对底层数据库的重复读取压力，提升了高并发场景下路径解析的响应速度。文章澄清了这一实践并非“是否使用”的问题，而是如何配置启用的问题，为面临类似性能瓶颈的运维和开发人员提供了明确的实践方向。

本机暂存

IT 2012-03-04 18:12:49 / 累计浏览 2,980

使用内置定时事件的功能来定时删除 binlog

这篇讲的是 MySQL 5.1.6 版本引入的一项实用功能：事件调度器（Event Scheduler）。它解决了数据库管理员需要定时执行维护任务（比如清理增长过快的 binlog）的需求，而此前这类工作往往只能依赖操作系统的定时任务。文章的核心对比点在于事件调度器与操作系统计划任务（如 Linux Cron）的精度差异。事件调度器可以精确到每秒执行一次任务，而操作系统任务通常只能精确到分钟。对于股票、比分这类对数据时效性要求极高的应用，这种毫秒级的调度能力就显得尤为关键。作者也厘清了一个常见概念：事件调度器有时被称为“临时触发器”，但它与基于表事件触发的普通触发器原理完全不同。文章最后提醒了一个关键前提：在使用该功能前，必须确保数据库的 `event_scheduler` 参数已经开启。对于希望简化运维、实现数据库内自治管理的团队来说，这是一个值得了解的内置解决方案。

本机暂存

IT 2012-01-29 20:35:35 / 累计浏览 3,400

[Perl]dancer 介绍

这篇讲的是在 Perl 的 Web 框架 Dancer 中集成使用 Template::Toolkit 模板引擎时一个需要注意的配置细节。文章的出发点很明确：许多熟悉 Template::Toolkit 的开发者，在将其引入 Dancer 项目时，可能会默认沿用熟悉的语法。作者直接点明了核心差异——Dancer 框架为 Template::Toolkit 设置的默认块分隔符是 `<% %>`，而非 Template::Toolkit 社区更常见的 `[% %]`。这个看似微小的区别，足以让刚迁移过来的开发者感到困惑，导致模板渲染失败。文章的价值在于清晰地揭示了这个“坑”所在，并给出了解决方案。它不仅指出了问题根源在于框架的默认配置，还进一步告知读者，这个设置并非强制，完全可以在 Dancer 的配置文件中进行自定义修改，以匹配原有的编码习惯或项目规范。这相当于提供了一把钥匙，帮助开发者快速跨越框架集成时的第一个配置障碍，确保工作流的顺畅。对于正在或计划使用 Dancer 的 Perl 开发者来说，提前了解这个细节，能有效避免不必要的调试时间。

本机暂存