Java正则引发的思考

淘宝网综合业务平台团队博客 2012-11-02 13:12:52 累计浏览 3,799 次

本机暂存

内容概览

这篇讲的是一个由正则表达式引发的线上故障排查与深度分析。

作者从预发环境CPU不定时飙升至100%的问题出发，通过jstack分析，发现业务线程全部卡在正则匹配的代码上。排查发现，问题根源在于一段看似无害的用户输入，经过代码规范化后，形成类似“`.*.*.*.*.*.*.*Deliver`”的正则模式，与特定长字符串匹配时导致了“假死”。

文章深入剖析了Java正则引擎在“贪婪模式（greedy）”下的工作机制。作者用一个简化的正则“`.*.*.*.*D`”和36个字符的字符串为例，图解了引擎在遇到多个通配符“`.*`”时，会如何进行大量回溯尝试，最终指出其匹配步数会呈现指数级增长（公式为 `S(m, n) = n + Σ S(m-1, n-i)` for `i=1 to n-1`）。为了验证这一理论推导，作者还巧妙地运用ASM字节码注入技术，在JDK正则匹配的核心方法上埋点，实测了匹配步数，结果与理论计算完全吻合。

这篇文章的价值在于，它清晰地揭示了Java正则引擎在处理特定贪婪模式通配符时可能存在的性能陷阱。对于开发者而言，这是一个重要的警示：在处理外部输入构造正则时，必须避免此类多重通配符的模式，否则可能引发难以预料和排查的严重性能问题。

pre: 感谢九任对我的支持~

情况回放：

上周预发机器出了一个问题，CPU不定时会近100%满负载运行。重启以后就会恢复，之后又会到达100%，而且不会自恢复。

首先想到的是程序出现了死循环，于是用jstack把栈打印出来，发现业务线程都停在了regex相关的代码上，有死循环的样子。

查看栈，发现一切都是由ClientFilter这个类开始，其使用了matcher.matches()方法。这样一来，就很可能是由于输入了不规范的正则导致的了。于是查看输入日志，发现这么一个输入：

也就是说输入的正则表达式为：******Deliver …，我们的代码会将这种代码规范成：.*.*.*.*.*.*.*Deliver。在java试了一下，试着匹配

“sssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssss”，果然会假死。

那么问题是：为什么输入这种正则会导致假死？

这里的原因是：java使用的是greedy模式来匹配 .*。为了让分析简单，我们将输入改成：.*.*.*.*D，正则需要匹配的字符串为：abcdefghijklmnopqrstuvwxyz0123456789，共36个字符。首先，我们将正则转换成 ”有限自动机(Finite-State Machine)“

那么greedy模式(可参看：java.util.regex.Pattern.Curly.match0(…)，另两个是possessive与lazy，分别对应 + 与 ?)的意思就是：最大可能的匹配当前状态(优先匹配粗的路径)，当不能匹配时再回溯配置下一个(虚线所示)，直到，回溯到cmin个匹配(对于 .* 这个cmin为0)。比如说

.*D，如果想匹配 testDdev，那么Java首先将 .* 转成 .{0, MAX}(这里的MAX应该是2亿多，具体可以看代码)，那么 .{0, MAX} 得到的匹配是(java会自动在string后加上一个终止字符，这个字符只能java.util.regex.Pattern.LastNode匹配)：

testDev$

RED: 已匹配的部分

当到最后时，java会调用 next.match(matcher, i, seq)

testDev$

RED: 已匹配的部分

BLUE:回溯部分

显然这里 D 不匹配，所以又需要回溯

testDev$

RED: 已匹配的部分

BLUE:回溯部分

显然这里 e 也不匹配，所以还需要回溯，直到回溯到 D，才会正式进入到下一个状态：

testDev$

RED: {0 MAX} 配置的部分

BLUE:回溯部分

GREEN: D 配置的部分

testDdev

RED: 已匹配的部分

如下面的代码所示(java.util.regex.Pattern.Curly.match0(…))：