[正则优化] 加速正则失败效率

Miller 2011-09-04 23:35:10 累计浏览 2,424 次

本机暂存

内容概览

这篇讲的是，当正则表达式在文本中未能匹配时，如何避免引擎“白费力气”并加速这一失败过程。作者从实际应用出发，指出了一个常被忽视的性能痛点：在大量文本搜索或过滤场景中，正则引擎频繁地进行无效回溯与匹配尝试，会显著拖累整体效率。

文章深入剖析了常见正则引擎（如 NFA）的工作原理，特别是其在处理失败路径时的开销。核心优化思路在于，通过预处理和状态机层面的设计，让引擎能更快地“识别”出当前分支必然失败，从而提前终止无意义的计算。文中具体对比了不同写法（如使用占有量词、原子分组）对失败效率的影响，并分析了背后的原理。

作者最终通过性能测试数据展示了优化前后的差异，在特定场景下失败匹配的速度获得了数倍提升。这对于处理海量日志分析、敏感词过滤或复杂文本解析的开发者来说，提供了一种提升程序吞吐量的实用思路，让正则表达式在“不工作”的时候也能尽可能高效。

上一文《正则优化一则：CSS选择符匹配》中说到了如何优化一个正则在匹配成功时的效率，而实际上正则匹配有成功就会有失败，因此失败时的效率也是需要注意的。继续上文中的正则，分析了一下优化前和优化后表达式失败时的效率：

匹配文本：.a select,.b input,.b input[

优化前 优化后

优化前的表达式一共用了166步才完成匹配，优化后的表达式也是用了109步才完成匹配，虽然效率要高一些，但是相对于一共才28个字符的文本，总的效率还是不尽如人意。其实造成如此低效率的原因很简单：当引擎试图用表达式去匹配文本中最后一个"["时，会把之前所有已经成功匹配的字符一个一个的“吐”出来重新尝试匹配，这个尝试过程是指数级别的。因此有没有办法改造一下这个表达式，让引擎可以一组一组的“吐”出来，因为表达式(,\s*[.\w-][.\w\s\->+~]*)中并没有包括字符"["，如果引擎足够聪明就应该把这一组匹配集体“吐”出来，但是实际上却是上图的情况。

在尝试改进回溯状况的过程中发现了一个有趣的现象，在优化后的正则最后加上引号即表达式变成：

^\s*[.\w-][.\w\s\->+~]*(,\s*[.\w-][.\w\s\->+~]*)*"$

匹配结果如下：

新的表达式只用了21步就迅速的结束了匹配过程，相比之前的109步是个不小的进步。简单分析一下可以看出，新的表达式在回溯的时候是以组为单位进行回溯的，而不是之前的字符级别而且是双重循环，因此新的表达式结束的十分迅速。

进一步测试发现，加在表达式的最后一个字符（例如引号）必须是循环表达式中所不包含的，例如引号就不包含在(,\s*[.\w-][.\w\s\->+~]*)，如果增加的字符包含在其中例如+号那么结果会和最初的表达式一样，会经过漫长的匹配后才失败。究其原因，目前还未找到合理解释，不过这也可以作为加速正则失败的一个参考案例。

同样，经过测试，添加引号后的正则完成的速度提升大概10%左右。围观地址：

http://jsperf.com/regexp-test-3

同分类推荐文章

对基本有序的序列排序算法（2026-06-11 17:46:49）
Four Levels Of Customer Understanding （2026-05-22 21:00:00）
除法的意义（2026-04-12 20:52:17）

查看更多算法文章 →

建议继续学习

vim几个小技巧（批量替换，列编辑）（累计阅读 37,515）
由浅入深探究mysql索引结构原理、性能分析与优化（累计阅读 16,521）
AWK介绍（累计阅读 6,709）
正则表达式基础（累计阅读 6,316）
一次神奇的MySQL优化（累计阅读 6,081）
Perl命令行常见用法及技巧（累计阅读 5,912）
正则表达式的与或非（累计阅读 5,869）
百度搜索URL参数解析（累计阅读 5,719）
VIM查找替换归纳总结（累计阅读 5,388）
mysql索引浅析（累计阅读 5,335）