高级正则表达式：贪婪与非贪婪匹配，原子组与回溯控制 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，各位技术大咖，以及各位和我一样在代码海洋里苦苦挣扎的码农们，晚上好！我是你们的老朋友，BUG终结者，代码诗人（不要脸.jpg）。

今天咱们来聊聊正则表达式里的“高级玩家”：贪婪与非贪婪匹配，以及原子组与回溯控制。这几个概念听起来有点吓人，但就像武侠小说里的绝世武功一样，一旦掌握，就能让你在文本处理的世界里所向披靡，轻松降伏各种奇葩需求。

准备好了吗？系好安全带，咱们要开车了！🚗💨

第一幕：贪婪与非贪婪——“吃货”与“绅士”的对决

想象一下，你面前摆着一盘香喷喷的炸鸡，你是怎么做的？

贪婪模式（Greedy）： 就像一个饿了八百年的“吃货”，恨不得一口吞下所有炸鸡，直到实在吃不下了才停下来。正则表达式默认就是贪婪模式。
非贪婪模式（Lazy/Reluctant）： 就像一个优雅的“绅士”，细嚼慢咽，吃一小块就停下来，再慢慢品尝下一块。

举个栗子🌰：

假设我们有一个字符串："<h1>Hello</h1><h2>World</h2>"，我们想用正则表达式匹配所有的 HTML 标签。

贪婪模式：

正则表达式：<.+> （注意 . 匹配任意字符，+ 匹配一次或多次）

结果：<h1>Hello</h1><h2>World</h2> （一口气吃掉了整个字符串，从第一个 < 到最后一个 > 都被匹配了）

这是因为 + 号太贪婪了，它尽可能多地匹配字符，直到字符串的末尾，才发现匹配不了了，然后才慢慢“吐”出来一些字符，直到整个表达式匹配成功。
非贪婪模式：

正则表达式：<.+?> （在 + 后面加一个 ? 就变成了非贪婪模式）

结果：<h1> 和 <h2> （绅士般地匹配到第一个 > 就停下来了，然后继续匹配下一个标签）

? 号的作用就是让 + 号变得“温柔”一点，尽可能少地匹配字符。

表格总结：

特性	贪婪模式	非贪婪模式
匹配原则	尽可能多地匹配字符	尽可能少地匹配字符
符号	`*`, `+`, `?`, `{n,}`, `{n,m}`	`*?`, `+?`, `??`, `{n,}?`, `{n,m}?`
适用场景	需要匹配尽可能长的字符串时	需要匹配尽可能短的字符串时
例子	匹配整个 HTML 标签，匹配一行完整的日志	提取 HTML 标签的属性值，提取日志中的关键信息

小贴士：

理解贪婪与非贪婪模式的关键在于理解 ? 符号的作用：它让量词（如 *, +, {n,m}）变得“懒惰”。
在实际应用中，要根据具体的需求选择合适的模式。有时候贪婪模式更高效，有时候非贪婪模式才能得到正确的结果。

第二幕：原子组——“固若金汤”的堡垒

原子组（Atomic Group）是一种特殊的正则表达式分组，它一旦匹配成功，就不会再回溯。可以把它想象成一个“固若金汤”的堡垒，一旦攻破，就再也不会退守。

为什么要用原子组？

性能优化： 原子组可以防止不必要的回溯，提高正则表达式的匹配效率。在复杂的正则表达式中，回溯可能会导致性能急剧下降。
控制匹配行为： 原子组可以限制正则表达式的匹配方式，确保匹配结果符合预期。

语法：

原子组的语法是 (?>...)，其中 ... 是需要分组的正则表达式。

举个栗子🌰：

假设我们有一个字符串："abcxyz"，我们想用正则表达式匹配以 abc 开头，后面跟着任意字符，但不能超过 3 个字符的字符串。

不用原子组：

正则表达式：abc.*

如果字符串是 "abcz"，匹配结果是 "abcz"。
如果字符串是 "abcxyz"，匹配结果是 "abcxyz"。这并不是我们想要的，因为我们限制了最多3个字符。
使用原子组：

正则表达式：abc(?>.*)

如果字符串是 "abcz"，匹配结果是 "abcz"。
如果字符串是 "abcxyz"，匹配失败。这是因为 (?>.*) 匹配了 xyz 之后，发现整个表达式无法匹配成功，但原子组不会回溯，所以整个匹配过程失败。

再来一个稍微复杂点的例子：

假设我们想匹配一个邮箱地址，但是我们希望域名部分必须是 .com 结尾的。

不用原子组：

正则表达式：w+@w+.com

这个表达式可以匹配 [email protected]，但是也可以匹配 [email protected]，这显然是不对的。
使用原子组：

正则表达式：w+@(?>w+).com

这个表达式可以正确匹配 [email protected]，但是不会匹配 [email protected]。因为 (?>w+) 会尽可能多地匹配域名部分，如果后面不是 .com，则整个匹配失败，不会回溯去尝试减少 w+ 的匹配长度。

表格总结：

特性	原子组	普通分组
回溯	禁止回溯	允许回溯
性能	通常更高	可能较低
适用场景	需要防止回溯，提高性能或控制匹配行为时	需要捕获分组内容，或者进行反向引用时
语法	`(?>...)`	`(...)`

小贴士：

原子组主要用于优化性能和控制匹配行为，但也会增加正则表达式的复杂度。
在使用原子组时，要仔细考虑是否真的需要禁止回溯，避免导致意外的匹配失败。

第三幕：回溯控制——“亡羊补牢”与“釜底抽薪”

回溯（Backtracking）是正则表达式引擎在匹配过程中，如果遇到匹配失败的情况，会尝试改变之前的匹配选择，重新进行匹配的过程。可以把它想象成“亡羊补牢”，或者“走迷宫”。

回溯控制就是控制正则表达式引擎的回溯行为，可以提高匹配效率，或者实现一些特殊的匹配需求。

回溯控制的常用方法：

固化分组（Atomic Group）： 前面已经讲过，可以禁止回溯。
占有优先量词（Possessive Quantifiers）： 在量词后面加一个 + 号，表示占有优先，不会回溯。例如 .*+，w++。
条件表达式： 可以根据条件选择不同的匹配分支，减少回溯的可能性。

占有优先量词的栗子🌰：

假设我们有一个字符串："abcxyzabc"，我们想用正则表达式匹配以 abc 开头，后面跟着任意字符，直到字符串的末尾。

使用贪婪量词：

正则表达式：abc.*abc

这个表达式可以匹配成功，因为 .* 会尽可能多地匹配字符，直到字符串的末尾，然后回溯到最后一个 abc。
使用占有优先量词：

正则表达式：abc.*+abc

这个表达式匹配失败，因为 .*+ 会尽可能多地匹配字符，直到字符串的末尾，并且不会回溯，所以后面的 abc 无法匹配成功。

条件表达式的栗子🌰：

假设我们要匹配一个字符串，如果以 abc 开头，则后面必须跟着 xyz，否则不能匹配。

正则表达式：(?(?=abc)abcxyz|.*)

这个表达式使用了条件表达式 (?(?=abc)abcxyz|.*)。如果字符串以 abc 开头（(?=abc) 是一个零宽断言，用于判断是否以 abc 开头），则匹配 abcxyz，否则匹配任意字符。

表格总结：

特性	固化分组	占有优先量词	条件表达式
回溯	禁止回溯	禁止回溯	根据条件选择不同的匹配分支，减少回溯
性能	通常更高	通常更高	可能更高
适用场景	需要防止回溯，提高性能或控制匹配行为时	需要防止回溯，提高性能或控制匹配行为时	需要根据条件选择不同的匹配方式时
语法	`(?>...)`	`*+`, `++`, `?+`, `{n,}+`, `{n,m}+`	`(?(condition)then\|else)`

小贴士：

回溯控制是正则表达式的高级技巧，需要深入理解正则表达式引擎的工作原理才能灵活运用。
过度使用回溯控制可能会导致正则表达式难以理解和维护，要谨慎使用。

总结：

今天我们一起学习了正则表达式的几个高级概念：贪婪与非贪婪匹配，原子组与回溯控制。希望通过今天的讲解，大家能够对这些概念有更深入的理解，并在实际应用中灵活运用，写出更高效、更强大的正则表达式。

记住，正则表达式是一门艺术，需要不断练习和实践才能掌握。不要害怕犯错，大胆尝试，你会发现正则表达式的世界充满了乐趣！

最后，祝大家编码愉快，BUG 远离！🍻

（完）

希望这篇文章能够帮助你理解正则表达式的这些高级概念，并在实际应用中发挥作用。记住，学习编程是一个不断探索和实践的过程，不要害怕挑战，勇敢地去尝试新的东西！ 💪

发表回复 取消回复

发表回复取消回复