字符串操作：`str` 访问器与正则表达式应用 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

字符串操作：`str` 访问器与正则表达式应用 – 字符串，你这个磨人的小妖精！😈

各位观众老爷，大家好！今天，咱们要聊聊编程世界里一个既重要又让人头疼的家伙——字符串！它就像一个磨人的小妖精，看似简单，实则暗藏玄机，稍微不注意，就能让你掉进坑里，爬都爬不出来。

不过，别怕！有了今天这堂课，保证你也能轻松驾驭这个磨人的小妖精，让它乖乖听话，为你所用！💪

咱们今天要讲的主题是：字符串操作：str 访问器与正则表达式应用。是不是听起来就很高大上？别慌，其实一点都不难。我会用最通俗易懂的语言，最生动形象的例子，让你在轻松愉快的氛围中掌握这些知识。

一、字符串，一个无处不在的存在

在编程世界里，字符串就像空气一样，无处不在。它可能是用户的姓名、商品的描述、文件的路径，甚至是网页的HTML代码。总之，只要涉及到文本，就离不开字符串。

为什么字符串这么重要？

想想看，如果没有字符串，你还能做什么？

没法显示文字：所有的文字都变成0和1，你还能看懂吗？🤔
没法接收用户输入：所有的输入都变成数字，你还能愉快地聊天吗？😂
没法进行数据分析：所有的文本数据都无法处理，你还能做出有效的决策吗？🤯

所以，字符串的重要性不言而喻。掌握字符串的操作技巧，是成为一名合格程序员的必备技能。

二、`str` 访问器：Pandas的字符串瑞士军刀 🧰

在数据分析领域，Pandas库可谓是当之无愧的王者。它提供了各种强大的数据结构和工具，让数据处理变得轻而易举。其中，str 访问器就是Pandas为字符串操作量身打造的一把瑞士军刀。

什么是 str 访问器？

简单来说，str 访问器是 Pandas Series 对象的一个属性，它允许你对 Series 中的每个字符串元素执行各种字符串操作。

为什么要用 str 访问器？

向量化操作：str 访问器可以一次性对整个 Series 进行操作，而不需要循环遍历每个元素。这大大提高了处理效率。🚀
一致性：str 访问器提供了一套统一的字符串操作接口，无论你的字符串来自哪里，都可以使用相同的方法进行处理。👍
方便性：str 访问器提供了大量的字符串操作方法，涵盖了几乎所有常用的字符串处理需求。👏

如何使用 str 访问器？

import pandas as pd

# 创建一个包含字符串的 Series
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'email': ['[email protected]', '[email protected]', '[email protected]', '[email protected]']}
df = pd.DataFrame(data)

# 使用 str 访问器将所有名字转换为小写
df['name_lower'] = df['name'].str.lower()
print(df)

# 使用 str 访问器提取邮箱域名
df['domain'] = df['email'].str.split('@').str[1]
print(df)

上面的代码演示了如何使用 str.lower() 和 str.split() 方法来对 Series 中的字符串进行操作。是不是很简单？

str 访问器常用方法一览

方法	描述	示例
`lower()`	将字符串转换为小写。	`df['name'].str.lower()`
`upper()`	将字符串转换为大写。	`df['name'].str.upper()`
`len()`	返回字符串的长度。	`df['name'].str.len()`
`strip()`	删除字符串开头和结尾的空白字符。	`df['email'].str.strip()`
`lstrip()`	删除字符串开头的空白字符。	`df['email'].str.lstrip()`
`rstrip()`	删除字符串结尾的空白字符。	`df['email'].str.rstrip()`
`contains(pattern)`	检查字符串是否包含指定的子字符串或正则表达式。	`df['email'].str.contains('@gmail.com')`
`replace(old, new)`	将字符串中指定的子字符串替换为新的字符串。	`df['email'].str.replace('@example.com', '@newdomain.com')`
`split(sep)`	将字符串按照指定的分隔符分割成多个子字符串。	`df['email'].str.split('@')`
`get(index)`	获取字符串中指定位置的字符。	`df['name'].str.get(0)` (获取名字的第一个字符)
`slice(start, stop, step)`	提取字符串的切片。	`df['name'].str.slice(0, 3)` (提取名字的前三个字符)
`startswith(prefix)`	检查字符串是否以指定的前缀开头。	`df['name'].str.startswith('A')`
`endswith(suffix)`	检查字符串是否以指定的后缀结尾。	`df['email'].str.endswith('.com')`
`findall(pattern)`	使用正则表达式查找字符串中所有匹配的子字符串。	`df['email'].str.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}')` (提取邮箱地址)
`extract(pattern)`	使用正则表达式提取字符串中第一个匹配的子字符串，并将其作为新的列返回。	`df['email'].str.extract(r'([a-zA-Z0-9._%+-]+)@([a-zA-Z0-9.-]+).([a-zA-Z]{2,})')` (提取用户名、域名和后缀)
`extractall(pattern)`	使用正则表达式提取字符串中所有匹配的子字符串，并将其作为新的DataFrame返回。	`df['email'].str.extractall(r'([a-zA-Z0-9._%+-]+)@([a-zA-Z0-9.-]+).([a-zA-Z]{2,})')` (提取用户名、域名和后缀，当一个字符串包含多个匹配项时)
`get_dummies(sep)`	将字符串按照指定的分隔符分割成多个子字符串，并将每个子字符串转换为 one-hot 编码。	`df['interests'].str.get_dummies(sep=',')` (如果 `interests` 列包含用逗号分隔的兴趣列表)

三、正则表达式：字符串匹配的利器 ⚔️

正则表达式（Regular Expression），简称 regex，是一种强大的文本模式匹配工具。它可以用来查找、替换、验证字符串，是字符串操作的利器。

为什么要学习正则表达式？

强大的匹配能力：正则表达式可以匹配各种复杂的文本模式，例如邮箱地址、URL、电话号码等。
灵活的替换功能：正则表达式可以根据模式匹配到的文本进行替换，实现复杂的文本转换。
高效的验证手段：正则表达式可以验证字符串是否符合指定的格式，例如验证邮箱地址是否有效。

正则表达式基础语法

符号	描述	示例
`.`	匹配任意单个字符（除了换行符）。	`.` 匹配 "a", "1", "$" 等。
`*`	匹配前面的字符零次或多次。	`a*` 匹配 "", "a", "aa", "aaa" 等。
`+`	匹配前面的字符一次或多次。	`a+` 匹配 "a", "aa", "aaa" 等，但不匹配 ""。
`?`	匹配前面的字符零次或一次。	`a?` 匹配 "" 或 "a"。
`[]`	匹配括号内的任意一个字符。	`[abc]` 匹配 "a", "b", 或 "c"。
`[^]`	匹配不在括号内的任意一个字符。	`[^abc]` 匹配除了 "a", "b", "c" 之外的任意字符。
`d`	匹配任意一个数字字符（0-9）。	`d+` 匹配一个或多个数字，如 "123", "456789"。
`w`	匹配任意一个字母数字字符或下划线（a-z, A-Z, 0-9, _）。	`w+` 匹配一个或多个字母数字字符或下划线，如 "abc", "123", "abc_123"。
`s`	匹配任意一个空白字符（空格、制表符、换行符等）。	`s+` 匹配一个或多个空白字符。
`^`	匹配字符串的开头。	`^abc` 匹配以 "abc" 开头的字符串。
`$`	匹配字符串的结尾。	`abc$` 匹配以 "abc" 结尾的字符串。
	转义字符，用于匹配特殊字符。	`.` 匹配 "." 字符，`\` 匹配 "" 字符。
`()`	分组，用于提取匹配的子字符串。	`(d{3})-(d{3})-(d{4})` 匹配美国电话号码格式，并将其分为三个组：区号、前缀和行号。
`\|`	或，用于匹配多个模式中的一个。	`(a\|b)` 匹配 "a" 或 "b"。
`{n}`	匹配前面的字符恰好 n 次。	`d{3}` 匹配恰好三个数字。
`{n,}`	匹配前面的字符至少 n 次。	`d{3,}` 匹配至少三个数字。
`{n,m}`	匹配前面的字符至少 n 次，但不超过 m 次。	`d{3,5}` 匹配至少三个数字，但不超过五个数字。

正则表达式在 str 访问器中的应用

str 访问器提供了 contains(), replace(), findall(), extract(), extractall() 等方法，可以方便地使用正则表达式进行字符串操作。

import pandas as pd

# 创建一个包含字符串的 Series
data = {'text': ['apple,banana,orange', 'grape,kiwi', 'mango,pineapple']}
df = pd.DataFrame(data)

# 使用正则表达式查找包含 "apple" 的字符串
df['contains_apple'] = df['text'].str.contains('apple')
print(df)

# 使用正则表达式提取第一个水果名称
df['first_fruit'] = df['text'].str.extract(r'([a-zA-Z]+)')
print(df)

# 使用正则表达式提取所有水果名称
df['all_fruits'] = df['text'].str.findall(r'([a-zA-Z]+)')
print(df)

正则表达式的常用场景

数据清洗：去除字符串中的特殊字符、空格等。
数据提取：从字符串中提取特定的信息，例如日期、时间、金额等。
数据验证：验证用户输入的数据是否符合指定的格式，例如邮箱地址、手机号码等。

正则表达式的进阶技巧

贪婪匹配与非贪婪匹配：默认情况下，正则表达式会尽可能多地匹配字符（贪婪匹配）。可以使用 ? 将贪婪匹配转换为非贪婪匹配，使其尽可能少地匹配字符。
反向引用：可以使用 1, 2 等来引用前面分组中匹配到的内容。
零宽断言：可以使用 (?=pattern), (?!pattern), (?<=pattern), (?<!pattern) 等来实现零宽断言，用于匹配特定位置的字符串。

四、实战演练：用 `str` 访问器和正则表达式解决实际问题

光说不练假把式！下面，咱们就来几个实战案例，让你亲身体验 str 访问器和正则表达式的强大威力。

案例一：提取邮箱地址中的用户名和域名

假设我们有一个包含邮箱地址的 Series，我们想要提取每个邮箱地址中的用户名和域名。

import pandas as pd

# 创建一个包含邮箱地址的 Series
emails = pd.Series(['[email protected]', '[email protected]', '[email protected]', '[email protected]'])

# 使用正则表达式提取用户名和域名
email_info = emails.str.extract(r'([a-zA-Z0-9._%+-]+)@([a-zA-Z0-9.-]+.[a-zA-Z]{2,})')
email_info.columns = ['username', 'domain']
print(email_info)

案例二：清洗用户评论数据

假设我们有一些用户评论数据，其中包含一些特殊字符和HTML标签，我们想要清洗这些数据，只保留中文和英文文字。

import pandas as pd

# 创建一个包含用户评论数据的 Series
comments = pd.Series(['<p>This is a good product!</p>', '非常棒的产品！', 'This is <b>awesome</b>!'])

# 使用正则表达式去除HTML标签和特殊字符
cleaned_comments = comments.str.replace(r'<[^>]+>', '', regex=True).str.replace(r'[^a-zA-Zu4e00-u9fa5]+', '', regex=True)
print(cleaned_comments)

案例三：验证用户输入的手机号码

假设我们有一个用户注册页面，我们需要验证用户输入的手机号码是否符合指定的格式。

import pandas as pd

# 创建一个包含手机号码的 Series
phone_numbers = pd.Series(['13812345678', '15998765432', '18665432109', '12345678901'])

# 使用正则表达式验证手机号码是否符合格式
is_valid = phone_numbers.str.match(r'^1[3-9]d{9}$')
print(is_valid)

五、总结：字符串操作，编程世界的基石 🧱

今天，我们一起学习了 str 访问器和正则表达式在字符串操作中的应用。希望通过今天的学习，你能够更加熟练地处理字符串，解决实际问题。

记住，字符串操作是编程世界的基石，掌握了它，你就能在编程的道路上越走越远！🚀

最后，送给大家一句至理名言：学习永无止境！ 继续努力，不断提升自己的编程技能，你就能成为一名真正的编程大师！ 🧙‍♂️

祝大家编程愉快！🎉

字符串操作：str 访问器与正则表达式应用 – 字符串，你这个磨人的小妖精！😈

一、字符串，一个无处不在的存在

二、str 访问器：Pandas的字符串瑞士军刀 🧰

三、正则表达式：字符串匹配的利器 ⚔️

四、实战演练：用 str 访问器和正则表达式解决实际问题

五、总结：字符串操作，编程世界的基石 🧱

发表回复 取消回复

字符串操作：`str` 访问器与正则表达式应用 – 字符串，你这个磨人的小妖精！😈

二、`str` 访问器：Pandas的字符串瑞士军刀 🧰

四、实战演练：用 `str` 访问器和正则表达式解决实际问题

发表回复取消回复