正则表达式的高级用法：捕获组、反向引用与前瞻/后瞻 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，欢迎来到今天的正则表达式高级用法脱口秀！我是你们的老朋友，人称“Bug终结者”的程序猿老王。今天，咱们不聊那些枯燥的理论，咱们来点刺激的，聊聊正则表达式这把瑞士军刀里的隐藏刀片：捕获组、反向引用、前瞻/后瞻。

开场白：正则表达式，不止是匹配那么简单

正则表达式，英文名叫Regular Expression，简称Regex，江湖人称“正则”。一听到这个名字，是不是就感觉一股神秘的力量扑面而来？没错，它就像一位武林高手，精通各种奇门遁甲，能帮你在一堆乱麻似的数据中，精准地找到你想要的东西。

但是，很多人对正则表达式的理解还停留在“匹配”层面。他们只会用它来验证邮箱格式，或者从一堆文本中提取手机号码。这就像拿着倚天剑当开瓶器，暴殄天物啊！

今天，老王就带大家深入挖掘一下正则表达式的潜力，看看它还能玩出什么花样。我们要聊的这三个家伙，个个身怀绝技，能让你的正则表达式功力瞬间提升一个档次。

第一章：捕获组：把猎物装进你的口袋

想象一下，你是一位经验丰富的猎人，走进一片茂密的森林。你的目标是猎捕野猪，但你可不想空手而归。你不仅要找到野猪，还要把它们带回家，对不对？

正则表达式中的捕获组，就扮演着“口袋”的角色。它可以让你在匹配文本的同时，把匹配到的特定部分保存起来，供以后使用。

1.1 什么是捕获组？

捕获组，简单来说，就是用一对圆括号 () 包裹起来的正则表达式。每当你使用一个捕获组时，正则表达式引擎就会把匹配到的内容保存到一个编号的组中。

比如，正则表达式 (hello) (world) 中，就有两个捕获组。第一个捕获组 (hello) 匹配 "hello"，第二个捕获组 (world) 匹配 "world"。

1.2 如何使用捕获组？

具体怎么用呢？别急，老王这就给你上代码：

import re

text = "hello world! This is a hello world example."
pattern = r"(hello) (world)"  # 注意，这里使用了原始字符串 r''

match = re.search(pattern, text)

if match:
    print("整个匹配到的字符串:", match.group(0))  # 整个匹配到的字符串
    print("第一个捕获组:", match.group(1))  # 第一个捕获组
    print("第二个捕获组:", match.group(2))  # 第二个捕获组
    print("所有捕获组:", match.groups())  # 所有捕获组，以元组形式返回

运行结果：

整个匹配到的字符串: hello world
第一个捕获组: hello
第二个捕获组: world
所有捕获组: ('hello', 'world')

看到了吗？match.group(0) 返回的是整个匹配到的字符串，而 match.group(1) 和 match.group(2) 则分别返回了第一个和第二个捕获组的内容。match.groups() 返回的是一个包含所有捕获组内容的元组。

1.3 命名捕获组：让你的代码更易读

如果你的正则表达式有很多捕获组，用数字编号来访问它们可能会让你感到头晕眼花。这时候，你可以给捕获组起个名字，就像给你的宠物取个名字一样，方便又亲切。

命名捕获组的语法是 (?P<name>...)，其中 name 是你给捕获组起的名字。

import re

text = "Name: John Doe, Age: 30"
pattern = r"Name: (?P<name>w+ w+), Age: (?P<age>d+)"

match = re.search(pattern, text)

if match:
    print("姓名:", match.group("name"))
    print("年龄:", match.group("age"))

运行结果：

姓名: John Doe
年龄: 30

现在，你可以用 match.group("name") 和 match.group("age") 来访问捕获组的内容，代码是不是更易读了呢？

第二章：反向引用：让你的正则表达式更聪明

捕获组就像一个记忆盒子，它可以记住匹配到的内容。而反向引用，则可以让你在正则表达式中再次使用这些被记住的内容。

2.1 什么是反向引用？

反向引用，就是指在正则表达式中，使用 数字 的形式来引用之前捕获组匹配到的内容。例如，1 表示引用第一个捕获组，2 表示引用第二个捕获组，以此类推。

2.2 反向引用的妙用

反向引用最常见的应用场景是查找重复出现的模式。例如，你想在一个字符串中找到连续重复的单词，可以这样做：

import re

text = "hello hello world world"
pattern = r"(w+) 1"  # 1 引用第一个捕获组

match = re.search(pattern, text)

if match:
    print("匹配到的重复单词:", match.group(0))

运行结果：

匹配到的重复单词: hello hello

在这个例子中，(w+) 匹配一个单词，并将其保存到第一个捕获组中。然后，1 引用第一个捕获组的内容，要求后面必须跟着相同的单词。

再举个例子，你想匹配HTML中成对出现的标签，例如 <p>...</p>，<div>...</div>，可以这样做：

import re

html = "<p>This is a paragraph.</p> <div>This is a div.</div>"
pattern = r"<(w+)>(.*?)</1>"

matches = re.findall(pattern, html)

for match in matches:
    print("标签名:", match[0])
    print("标签内容:", match[1])

运行结果：

标签名: p
标签内容: This is a paragraph.
标签名: div
标签内容: This is a div.

这里，<(w+)> 匹配一个开始标签，并将标签名保存到第一个捕获组中。然后，</1> 匹配一个结束标签，并且要求结束标签的标签名必须与开始标签的标签名相同。.*? 匹配标签之间的任何内容，非贪婪模式。

2.3 反向引用的注意事项

反向引用只能引用之前已经定义的捕获组。
反向引用引用的是捕获组匹配到的具体内容，而不是捕获组的模式。也就是说，如果第一个捕获组匹配到的是 "hello"，那么 1 只能匹配 "hello"，而不能匹配其他的单词。

第三章：前瞻/后瞻：站在未来和过去的角度看问题

前瞻和后瞻，就像是正则表达式的千里眼和顺风耳，它们可以让你在匹配文本的同时，观察目标字符串的前面或后面是否满足某些条件，但不会将这些条件包含在最终的匹配结果中。

3.1 什么是前瞻/后瞻？

前瞻 (Lookahead)：从当前位置向前看，判断后面的内容是否符合某个模式。
- 肯定前瞻 (Positive Lookahead)：(?=pattern)，要求后面的内容必须匹配 pattern。
- 否定前瞻 (Negative Lookahead)：(?!pattern)，要求后面的内容不能匹配 pattern。
后瞻 (Lookbehind)：从当前位置向后看，判断前面的内容是否符合某个模式。
- 肯定后瞻 (Positive Lookbehind)：(?<=pattern)，要求前面的内容必须匹配 pattern。
- 否定后瞻 (Negative Lookbehind)：(?<!pattern)，要求前面的内容不能匹配 pattern。

3.2 前瞻/后瞻的应用场景

验证密码强度：例如，要求密码必须包含大小写字母和数字。

import re

def validate_password(password):
    pattern = r"^(?=.*[a-z])(?=.*[A-Z])(?=.*d).{8,}$"
    # (?=.*[a-z])：肯定前瞻，要求密码中必须包含至少一个小写字母
    # (?=.*[A-Z])：肯定前瞻，要求密码中必须包含至少一个大写字母
    # (?=.*d)：肯定前瞻，要求密码中必须包含至少一个数字
    # .{8,}：密码长度至少为8位

    if re.match(pattern, password):
        return True
    else:
        return False

print(validate_password("StrongPass123"))  # True
print(validate_password("weakpass"))  # False

提取价格：例如，只提取美元符号后面的数字。

import re

text = "The price is $100, but the shipping is $10."
pattern = r"(?<=$)d+"  # (?<=$)：肯定后瞻，要求前面必须是美元符号

prices = re.findall(pattern, text)

print(prices)  # ['100', '10']

替换单词：例如，只替换出现在特定上下文中的单词。

import re

text = "The cat sat on the mat, but the caterpillar is not a cat."
pattern = r"bcatb(?!.)" # bcatb：匹配独立的单词 "cat"，(?!.)：否定前瞻，要求后面不能是句号

new_text = re.sub(pattern, "dog", text)

print(new_text)  # The dog sat on the mat, but the caterpillar is not a cat.

3.3 前瞻/后瞻的注意事项

前瞻和后瞻不消耗字符。也就是说，它们只是用来判断条件是否满足，不会将匹配到的内容包含在最终的匹配结果中。
后瞻中的 pattern 必须是固定长度的。也就是说，你不能在后瞻中使用 *，+，? 等不定长度的量词。这是因为正则表达式引擎需要知道后瞻的长度，才能准确地向后看。

总结：正则表达式，你的无限可能

好了，各位观众老爷们，今天的正则表达式高级用法脱口秀就到这里了。希望通过今天的讲解，大家能够对捕获组、反向引用和前瞻/后瞻有更深入的理解。

记住，正则表达式不仅仅是一种工具，更是一种思维方式。它可以让你用更简洁、更高效的方式来处理文本数据。只要你掌握了它的精髓，就能在编程的世界里，无往不利，攻无不克！💪

表格总结

特性	语法	描述	示例
捕获组	`(pattern)`	将匹配到的 `pattern` 部分保存起来，供以后使用。	`(hello) (world)` 匹配 "hello world"，并分别保存 "hello" 和 "world"。
命名捕获组	`(?P<name>pattern)`	给捕获组起个名字，方便访问。	`(?P<name>w+)` 匹配一个单词，并将其命名为 "name"。
反向引用	`数字`	引用之前捕获组匹配到的内容。	`(w+) 1` 匹配重复出现的单词，例如 "hello hello"。
肯定前瞻	`(?=pattern)`	要求当前位置后面的内容必须匹配 `pattern`，但不包含在匹配结果中。	`w+(?=.)` 匹配以句号结尾的单词，但不包含句号。
否定前瞻	`(?!pattern)`	要求当前位置后面的内容不能匹配 `pattern`，但不包含在匹配结果中。	`bcatb(?!.)` 匹配独立的单词 "cat"，但后面不能是句号。
肯定后瞻	`(?<=pattern)`	要求当前位置前面的内容必须匹配 `pattern`，但不包含在匹配结果中。	`(?<=$)d+` 匹配美元符号后面的数字，但不包含美元符号。
否定后瞻	`(?<!pattern)`	要求当前位置前面的内容不能匹配 `pattern`，但不包含在匹配结果中。	`(?<![A-Z])d+` 匹配数字，但前面不能是大写字母。

希望这张表格能够帮助你更好地理解这些高级特性。记住，熟能生巧，多加练习，你也能成为正则表达式的高手！

下次再见！ 👋

发表回复 取消回复

发表回复取消回复