后端

共 1964 篇文章

IT 2014-11-28 22:48:05 / 累计浏览 1,500

域名随机大小写导致libevent2的异步DNS解析失败

这篇文章深入剖析了libevent2内置异步DNS解析器的一个潜在陷阱。作者从实际遇到的DNS解析失败问题出发，指出根源在于libevent默认启用了“DNS-0x20 encoding”这种防投毒机制——它会将请求域名中的字母随机大小写化，但现实中的许多DNS服务器或中间网络设备（如ISP）并不严格遵守RFC规范，会在回复中将域名统一转为小写。这导致libevent在核对请求与响应域名时因大小写不匹配而判定解析失败。作者通过抓包实验清晰地展示了这一过程，并深入libevent源码，定位到`global_randomize_case`开关及其导致严格字符串匹配的关键逻辑。文中还对比了Google Public DNS的做法：它也使用0x20 encoding，但通过引入白名单机制，仅对兼容的服务器启用，从而避免了全面故障。最后，作者向libevent社区提交了修改默认行为的补丁请求。这篇文章不仅讲清了一个技术故障的排查脉络，也揭示了理论标准与实际实现之间的常见鸿沟。

本机暂存

IT 2014-11-28 22:39:58 / 累计浏览 1,742

FastDFS使用经验分享

这篇讲的是FastDFS在实际使用中遇到的两个痛点，并给出了经过验证的解决方案。第一个问题是文件下载时显示的哈希文件名对用户不友好。作者从存储机制分析，指出FastDFS本身不保留原始文件名，核心解决方法是结合应用数据库与Nginx：上传时记录FID与原始文件名，下载时在URL中通过`attname`参数携带原始文件名，再利用Nginx配置拦截该参数，写入响应头的`Content-Disposition`字段，从而让浏览器展示正确的文件名。第二个经验是管理图片的多分辨率备份。作者利用了FastDFS的“主从文件”机制，即主文件与从文件仅在ID上有关联（从文件ID包含主文件ID），服务端并不维护其关系。通过先上传源图，再以指定主文件ID和后缀名上传缩略图，即可建立关联。文章特别提醒，这种关联是逻辑上的，删除主文件时需要应用层自行处理从文件的清理，避免资源孤立。两篇分享都聚焦于FastDFS默认功能与实际业务需求之间的 gap，并提供了简单有效的工程化实现路径。

本机暂存

IT 2014-11-28 12:47:03 / 累计浏览 3,001

Linux内核文件系统挂载分析

作者从mount系统调用的实现过程入手，聚焦于Linux 3.2.0内核，拆解文件系统挂载的底层机制。文章首先厘清了两个核心数据结构：每个挂载的文件系统都对应一个vfsmount，它维护着文件系统在哈希表、父子关系链表以及名字空间中的位置；path结构则封装了目标挂载点与父文件系统的关联。核心分析围绕一连串的函数调用展开：系统调用服务例程将参数复制进内核后，便交由do_mount处理。它通过kern_path定位挂载点，随后分发至do_new_mount进行常规挂载。后者的关键步骤是通过do_kern_mount获取源文件系统的vfsmount，并经由do_add_mount执行合法性检查，最终调用graft_tree进行装载。装载的精髓体现在attach_recursive_mnt中。该函数建立父子映射：让子文件系统的vfsmount指向父vfsmount，并链接到父系统中的挂载点dentry。最后的commit_tree则将这一切“落地”：把新vfsmount置入正确的名字空间链表、全局哈希表以及父文件系统的子文件系统列表中。整个过程清晰地揭示，挂载在内核层面的本质，正是将源文件系统的vfsmount结构以严格的层级关系，嫁接到目标文件系统的目录树之中。

本机暂存

IT 2014-11-27 13:10:17 / 累计浏览 2,841

通过call_usermodehelper()在内核态执行用户程序

这篇讲的是如何在 Linux 内核中“跨界”执行用户空间的程序。作者从内核开发者常遇到的需求出发，介绍了 `call_usermodehelper()` 这个内核API。文章指出了它的核心作用：让运行在内核态的代码（比如模块或驱动）能够主动启动并执行一个用户空间的可执行文件或系统命令，就像在 shell 里敲命令一样。作者还提到了一个关键的实现细节：这个函数最终会调用内核的 `do_execve()`，这和用户态的 `execve()` 系统调用在底层“殊途同归”，但调用路径和上下文完全不同。为了说明如何使用，文章给出了一个加载函数的代码片段示例，演示了调用该API的基本结构。对于需要在内核逻辑中动态触发外部脚本或工具进行日志收集、环境配置等场景，这个接口提供了一条直接通道，理解它有助于编写更灵活的内核模块。

本机暂存

IT 2014-11-27 13:01:44 / 累计浏览 2,883

一次DNS域名解析问题排查记录

这篇讲的是一个线上服务因DNS解析异常导致调用失败的排查过程。作者从同事反馈curl调用另一个服务接口报错“couldn’t connect to host”入手，通过strace追踪发现，连接实际指向了一台实体机的IP地址，而非预期的VIP。问题的根源在于新安装的阿里自研DNS解析软件vipserver，它错误地将域名解析到了多台实体机IP。与对方工程师沟通后进一步发现，实体机服务端口是2087，而VIP上监听的是2088，端口不匹配直接导致了连接失败。排查中还发现了一个“隐形干扰者”——nscd的DNS缓存。清空缓存后，之前“正常”的机器也暴露出问题，这解释了为何集群内部分机器表现不一。最终的处理是暂时关闭vipserver，等待对方完成配置修正。这个案例清晰地展示了，当引入新的服务发现组件时，对解析链路、缓存机制以及上下游端口配置进行同步验证是多么必要。

本机暂存

IT 2014-11-26 23:55:36 / 累计浏览 6,164

C语言结构体里的成员数组和指针

这篇讲的是C语言中结构体成员访问的一个经典误解。作者从微博上一道让程序崩溃的代码题出发，拆解了其中隐藏的底层机制。题目里结构体包含零长度数组 `char s[0]`，通过空指针 `f.a` 访问成员 `s` 时，程序没在 `if` 判断崩溃，却在之后的 `printf` 处崩溃。文章深入剖析了根源：在C语言里，访问结构体成员本质上是进行“基址 + 编译时确定的偏移量”计算。对于数组成员 `s`，`f.a->s` 操作得到的是这个数组的相对地址（通过 `lea` 指令实现），所以即使 `f.a` 是空指针，计算出的地址（如 0x4）也不会立刻引发崩溃。但如果把 `s` 声明为指针 `char *s`，`f.a->s` 则会解引用这个空指针（通过 `mov` 指令），程序就会在判断条件处直接崩溃。作者还澄清了零长度数组是编译器扩展（如GCC），常用于实现“柔性数组”以分配不定长数据。文章强调，理解变量的地址本质、成员访问的偏移计算以及数组名与指针的操作区别，是避免这类“坑”并掌握C语言内存模型的关键。

本机暂存

IT 2014-11-25 23:16:00 / 累计浏览 3,641

PHP最佳实践：MySQL的连接

这篇讲的是PHP开发者面临的经典选择：当老式的`mysql_*`函数在PHP 5.5后被官方废弃，且存在SQL注入等安全与功能瓶颈时，该如何正确连接MySQL数据库。文章的核心对比非常清晰。它首先点出`mysql_*`函数的历史局限——基于过时的MySQL 3.23开发，无法支持现代特性。然后，作者将笔墨集中在现代解决方案`PDO_MySQL`上，并详细阐述了它如何解决旧方案的痛点。具体来说，`PDO`通过支持预处理语句，在提升重复查询性能的同时，从根本上防御了SQL注入攻击。它还为事务管理提供了可靠接口，这对于保证数据一致性至关重要。文章并未止步于此，还深入介绍了存储过程、异步查询等进阶数据库交互方式，并分析了各自的优缺点与适用场景。最后，作者明确指出，切换到`PDO`或`mysqli`扩展不仅是技术趋势，更是保障应用安全与性能的必要升级。整个行文逻辑是从“为何淘汰旧事物”到“新事物如何更好”，给出了明确的迁移指引和原理剖析。

本机暂存

IT 2014-11-25 23:03:37 / 累计浏览 2,205

PHP最佳实践之PHP标签

PHP代码标签有好几种写法，但并非都同样可靠。这篇讲的就是如何在这些写法中做出明智选择，避开那些隐蔽的坑。作者首先指出了一个关键事实：在众多标签中，``是唯一能保证在所有PHP服务器上正常工作的。这意味着，如果你无法控制目标服务器的配置，用这个最“原始”的标签是最稳妥的。文章的核心观点在于一个反直觉的最佳实践：对于纯PHP文件，应该省略闭合标签`?>`。这并非为了美观，而是为了健壮性。任何在闭合标签后不小心混入的空格、换行或不可见字符，都可能被当作输出发送，导致页面错位、`header()`函数报错，甚至输出一片空白。作者建议，用一段注释来标识文件结尾和位置，既清晰又安全。当然，规矩总有例外。在PHP与HTML混写的页面或模板里，像`

`这样，闭合标签就必须使用，以确保HTML结构的正确性。这篇指南从具体问题出发，解释了看似微小的语法选择背后深刻的工程考量。它帮你在代码规范化的路上，于细节处更稳健。

本机暂存

IT 2014-11-25 22:47:00 / 累计浏览 3,181

每个程序员都应该知道的一些访问时延值

这篇文章分享了一组程序员最好烂熟于心的参考值——从CPU各级缓存、主存、固态硬盘到跨地域网络请求的访问延迟。这组经典数据最早源自谷歌传奇工程师 Jeff Dean 的演示文稿，它用具体数字将抽象的“快”与“慢”量化成了直观的层次。例如，从L1缓存访问只需几纳秒，而访问一次固态硬盘则需要几万纳秒，一次跨大西洋的网络往返可能要一百多万纳秒。这之间几个数量级的差异，直接决定了我们在设计算法、选择存储方案和搭建分布式系统时的性能天平该如何倾斜。文章作者不仅呈现了数据，还提供了社区整理的精炼版链接，并讲述了关于 Jeff Dean 的著名轶事，让这组数据多了几分传奇色彩。在编程世界里，凭感觉优化往往事倍功半。而将这些延迟数字内化于心，能帮助你在架构层面做出更明智的判断，比如何时该引入缓存、数据该如何分区、或是如何设计一个能容忍网络延迟的服务。有了这些量化概念，做技术决策时才能心中有“数”。

本机暂存

IT 2014-11-25 14:16:30 / 累计浏览 2,041

新浪微博的纸牌屋

这篇讲的是微博崛起背后，一套被称作“纸牌屋”的关键人物合力。文章从新浪这家“无主”的互联网公司说起，剖析了在2009年管理层MBO前后，几股核心力量如何共同塑造了微博。作者认为，微博的成功并非一张牌的力量，而是多张“牌”各司其职。内容大将陈彤奠定了“名人战略”的基石，复制了门户与博客的成功逻辑；销售核心杜红则将传统媒体的“大单”经营思维带入微博，高效地将流量转化为广告收入。执行者彭少彬力推项目并打通了用户标签系统，而技术出身的王高飞则敏锐抓住了移动浪潮，最终执掌产品技术，释放了“移动优先”的信号。此外，曹国伟的资本运作与战略布局（如MBO、毒丸计划、商业化六大方向）为微博提供了关键支持和路线图。许良杰则带来底层技术与大公司管理经验，试图补强新浪的技术短板。文章指出，这套由内容、经营、执行、移动、资本与技术组成的“牌”，共同推动微博在竞争中胜出并走向上市，其合力也深刻影响了这家传统媒体基因公司的转型方向。

本机暂存

IT 2014-11-24 23:38:39 / 累计浏览 965

在 Perl6 脚本中并发执行 ssh 命令

这篇讲的是作者在 Perl6 中并发执行 SSH 命令时的一次实战尝试。由于找不到合适的现有模块，且底层 C 库不兼容其 Kerberos 认证环境，作者决定绕开高层并发 API（如 Promise/Supply），直接使用更底层的 Thread 和 Channel 来实现。文章围绕一个简洁的 OpenSSH 类展开，展示了如何通过多方法实现单个主机与多主机的命令执行。作者特别指出，虽然 Perl6 宣传了高级并发模型，但 API 迭代较快，有时选择更稳定的底层原语反而更可靠。代码示例串联了不少 Perl6 语法点：类的属性定义、字符串连接符 `~`、用于捕获错误的 `try`/`CATCH`、执行系统命令的 `qqx{}`，以及 `>>` 操作符在数组上的线程化 finish 操作。作者也坦诚，示例代码较为简陋，例如依赖密钥登录且未使用线程池调度。整体来看，这是一份结合了具体需求、实现思路与语法讲解的笔记，既分享了在 Perl6 中集成系统命令与并发控制的方法，也客观分析了语言特性在实际场景下的应用考量。

本机暂存

IT 2014-11-24 23:32:25 / 累计浏览 1,981

关于libmemcached中的crc的实现

这篇讲的是作者在尝试用PHP自定义实现memcached客户端时，遇到的一个具体问题：为保证与libmemcached行为一致，需要让PHP中的CRC32算法输出与C库相同。作者发现，尽管基础算法相同，但PHP内置的`crc32()`函数与libmemcached中的实现存在关键差异。根本原因在于：PHP的`crc32()`返回的是一个32位有符号整数，而libmemcached实际使用的是该结果的高16位，并且忽略了符号位。这意味着简单的结果并不相等。文章不仅点明了差异，还给出了两种在PHP中模拟libmemcached CRC32行为的方案。一种是利用位运算的高效实现（`(crc32('test')>>16)&0x7fff`），另一种是完整的查表算法模拟。作者通过对比指出，完整的PHP模拟实现（需要大量pack/unpack操作）比位运算方案慢约100倍，这为性能敏感的场景提供了重要参考。文末附上了C语言库的相关源码，便于对照理解。

本机暂存

IT 2014-11-23 21:44:44 / 累计浏览 7,323

分布式系统的事务处理

这篇文章从单服务器的性能瓶颈和单点故障问题出发，探讨了分布式系统为提升可用性而采用数据分区或数据镜像后，如何处理跨服务器事务这一核心难题。作者以经典的“转账”场景为例，清晰地阐述了数据冗余带来的双刃剑效应：高可用性必然导致数据一致性挑战，而保证一致性又可能牺牲性能。文章并未给出单一解法，而是梳理了业界应对这一问题的几种关键思路。首先介绍了弱、最终和强三种一致性模型及其典型应用场景。接着，深入分析了主从（Master-Slave）、多主（Master-Master）这两种常见架构在数据同步上的权衡，特别是强一致性实现的复杂性。最后，重点剖析了分布式事务处理的经典协议——两阶段提交（2PC）及其演进版三阶段提交（3PC），解释了它们的工作原理、核心优势（如强一致性保证）以及可能引发的阻塞风险。全文在容灾、一致性、性能这个“铁三角”关系中展开，为理解分布式系统的设计哲学与工程取舍提供了扎实的技术脉络。

本机暂存

IT 2014-11-23 21:42:10 / 累计浏览 2,464

Curl的毫秒超时的一个”Bug”

这篇讲的是作者在升级PHP使用的libcurl后遇到的诡异问题：明明设置了毫秒级超时，curl却直接返回错误而不发起请求。问题根源在于Linux下curl默认使用SIGALRM信号来控制域名解析超时，而这个信号的精度只到秒。源码里可以看到，一旦超时值小于1000ms，函数就直接返回超时，根本不去尝试解析。这其实是一个设计上的缺陷，虽然提供了毫秒超时的接口，底层机制却无法支持。解决方法出人意料地简单：在请求中设置CURLOPT_NOSIGNAL选项。这个选项会让curl绕过基于信号的超时控制机制，从而让毫秒超时真正生效。文章通过源码定位和Stack Overflow的参考，完整呈现了从发现问题、分析原因到最终解决的全过程，对遇到类似超时问题的开发者很有参考价值。

本机暂存

IT 2014-11-23 21:37:17 / 累计浏览 1,763

编程珠玑番外篇之番外篇-O 中间语言和虚拟机漫谈

这篇讲的是中间语言与虚拟机如何悄然重塑编程语言设计的底层逻辑。作者从编程语言的历史演进出发，指出近十年来的一个关键变革：编译器不再直接生成CPU指令，而是瞄准中间语言或虚拟机指令集。这种“解耦”让语言设计者摆脱了具体硬件的束缚，催生了语言井喷的时代。文章深入剖析了两种主流虚拟机架构的对比：基于栈的虚拟机（如JVM、TrueType字体引擎）结构简单、代码体积小，天然适合资源受限的嵌入式系统；而基于寄存器的虚拟机（如Android Dalvik、LLVM）通过直接映射寄存器减少了数据拷贝，为性能优化打开了大门。作者还以JavaScript引擎从TraceMonkey到V8的演进为例，说明了JIT技术如何通过运行时热点优化弥补中间层的性能损失，甚至催生了绕过中间层直接编译本地代码的新路径。从TrueType字体中的虚拟机到Android从Dalvik转向ART，文章揭示了虚拟机技术如何在跨平台、安全性与执行效率之间不断寻找新的平衡点。

本机暂存

IT 2014-11-23 21:10:09 / 累计浏览 2,904

对爬虫的限制

这篇讲的是开发者在资源受限的云平台上，如何应对爬虫造成的流量激增问题。作者起初将文件迁移到七牛云存储后，发现一天就消耗了2GB流量，远超预期。分析SAE应用日志后发现，大量请求来自搜索引擎爬虫。为了解决这个问题，作者采取了一系列递进式的应对措施。首先用robots.txt屏蔽了如AhrefsBot、Ezooms等国外爬虫。在robots规则生效前，通过SAE的应用防火墙直接屏蔽具体IP地址，或者更高效地封禁整个IP段。此外，还利用config.yaml的配置，实现了对特定目录的访问控制，并将未遵守规则的爬虫引导至robots.txt。对于单个PHP文件，则编写了简单的代码检测User-Agent并返回空白页。最终，这些措施有效遏制了爬虫对服务器资源的过度消耗，文章末尾的SAE输出流量图也直观展示了问题解决后的平稳状态。整个过程体现了从问题发现、日志分析到多手段综合处置的典型排查思路。

本机暂存

IT 2014-11-23 20:57:53 / 累计浏览 2,461

分布式缓存的一起问题

这篇文章聚焦于分布式缓存主从架构中一个典型的“踩坑”场景：当master节点突发故障时，原本设计用于保障数据一致性的CAS（Compare-and-Swap）流程却会导致slave副本数据静默过期。作者从实际业务故障出发，剖析了问题根源——master cas失败后并未对slave执行set操作，导致新变更无法写入缓存。文章进一步探讨了自动切换master角色为何不可行，以及手工切换或采用“delete slave”或“设置短过期”等补救方案时，仍需面对命中率下降、接口职责模糊等棘手权衡。最终，作者将问题抛回给读者：在这种对可用性与一致性都有要求的场景下，一个更完美的解决方案应该如何设计？

本机暂存

IT 2014-11-23 20:57:04 / 累计浏览 2,263

记我配置Nginx代理的遭遇

这篇讲的是作者自认熟悉Nginx，却在配置一个简单的代理转发时连踩五个大坑的曲折经历。核心任务是将形如 `/search/lamp` 的请求，代理到新服务并转换为 `/search?q=lamp` 的参数格式。作者从最直接的正则捕获与变量拼接方案开始尝试，但首次运行就遇到了“未定义resolver”的经典报错。根因在于代理地址中使用了变量时，必须显式配置DNS解析器。作者不喜欢硬编码resolver，于是尝试移除变量，却立即触发第二个限制：在正则表达式定义的location块内，`proxy_pass` 指令不允许包含URI。被迫改用 `rewrite` 重写请求URI后，又遭遇变量作用域问题，正则捕获的变量无法直接在 `rewrite` 中使用。借助社区提醒，通过 `set` 指令中转变量解决了传递问题，但这并非终点——新的问题是正则匹配会自动解码URL，导致传参错误。最终，作者通过使用 `$request_uri` 变量获取原始未解码的URI，并配合 `if` 指令进行条件判断，才在第五次尝试中成功搞定。这篇文章生动演示了Nginx配置中变量、位置块与指令之间复杂的相互作用，对避开这些“老坑”有直接的参考价值。

本机暂存

IT 2014-11-22 23:50:00 / 累计浏览 1,803

PHP中字符串截取的效率

这篇讲的是 PHP 中一个性能细节：截取单个字符时，`substr()` 函数与直接使用 `$string{$start}` 或方括号访问的效率差异。作者从算法优化的角度切入，因为在密集循环中，单个操作的微小差异会被放大。他设计了一个简单的基准测试，循环十万次来对比两种写法。结论很直观：直接使用 `$string{$start}` 的方式，执行速度大约是调用 `substr()` 函数的 **10 倍**。文章还附上了这段测试代码，方法清晰易懂。这个发现意味着，在 PHP 中进行高频字符串操作（例如实现某些算法或处理大量文本）时，优先使用数组式的直接下标访问，不仅能写出更简洁的代码，还能获得显著的性能提升。对于追求代码效率的开发者来说，这是一个值得记住的实用技巧。

本机暂存

IT 2014-11-22 23:48:11 / 累计浏览 1,762

Web框架与太阳系

这篇讲的是作者如何从对现有PHP框架的迷茫中，转向自行设计一个名为“Beahoo”的迷你Web框架。他从太阳系的结构中获得灵感，提出利用“装饰器模式”来构建框架的构想。文章清晰地阐述了框架的核心设计目标：微内核、模块化与扩展性。作者巧妙地将行星与卫星的关系类比为装饰器模式：月球装饰地球，地球又装饰太阳，层层嵌套，形成可扩展的系统。他展示了框架中仅几百行的Action与Decorator核心代码，这部分实现了类似“DNA双螺旋”的基础结构。随后，通过模拟创建太阳系的代码实例，直观地演示了如何用装饰器模式动态组合功能模块。作者的核心观点是，借鉴这种自然界分层装饰的模式，可以用极简的代码构建出灵活强大的Web框架。尽管篇幅所限未展开全部功能，但这个从天文现象到软件架构的联想与实现过程，本身提供了一个非常有趣且具启发性的框架设计思路。

本机暂存