文本数据清洗：去除空格、特殊字符与大小写转换 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，没问题！各位听众朋友们，欢迎来到“文本数据清洗奇妙夜”！我是你们今晚的导游，数据界的段子手，代码界的诗人——清风明月。今晚，咱们不聊高深的算法，不谈玄妙的架构，就聊聊数据清洗这件“接地气”的大事儿。

想象一下，你面前堆着一座数据金矿，里面闪烁着智慧的光芒，蕴藏着无尽的价值。但是！这座金矿里混杂着大量的泥沙、石块、甚至是熊孩子乱涂乱画的痕迹，你该怎么办？当然是拿起你的数据清洗工具，把这些“杂质”清理掉，露出金灿灿的真面目！

文本数据清洗，就像给数据洗个澡，让它焕然一新。今天，我们就来聊聊文本数据清洗的三大步骤：去除空格、特殊字符和大小写转换。

一、空格：数据界的“空气”，多了也窒息

空格，就像空气一样，无处不在。在文本数据中，空格有时候很有用，比如分隔单词，增加可读性。但有时候，它就像空气污染一样，污染了你的数据，让你头疼不已。

多余空格的危害：
- 影响匹配： 比如，你想搜索“北京大学”，结果数据里存的是“北京大学”，你就搜不到了，简直是欲哭无泪！
- 浪费空间： 数据库里存了大量的空格，白白浪费存储空间，就像你家里堆满了没用的纸箱子。
- 影响分析： 统计词频时，"apple" 和 " apple "会被认为是两个不同的词，导致分析结果失真。
去除空格的工具：

Python自带的strip()、lstrip()、rstrip()函数，就像三把手术刀，帮你精准去除空格。
- strip()：去除字符串两端的空格，就像给你的头发做个造型，把两侧的碎发都剪掉。
- lstrip()：去除字符串左侧的空格，就像把你的刘海剪短，让你的额头露出来。
- rstrip()：去除字符串右侧的空格，就像把你的鬓角修剪整齐，让你看起来更精神。
```
text = "  Hello World  "
print(text.strip())  # 输出：Hello World
print(text.lstrip()) # 输出：Hello World
print(text.rstrip()) # 输出：  Hello World
```
当然，如果你想更强大一点，可以使用正则表达式（re模块）。正则表达式就像一把瑞士军刀，可以处理各种复杂的空格问题。
```
import re
text = "  Hello  t World n"
text = re.sub(r's+', ' ', text).strip() # 多个空格替换为一个空格
print(text) # 输出：Hello World
```
这里的s+表示匹配一个或多个空白字符（包括空格、制表符、换行符等）。re.sub()函数将所有匹配到的空白字符替换为一个空格，然后用strip()去除首尾空格。

表格示例：

原始数据	清洗后数据	使用方法
" 北京大学 "	"北京大学"	`strip()`
" 北京大学"	"北京大学"	`lstrip()`
"北京大学 "	"北京大学"	`rstrip()`
" Hello tWorld "	"Hello World"	`re.sub(r's+', ' ', text).strip()`

二、特殊字符：数据里的“小妖精”，不除不行

特殊字符就像数据里的“小妖精”，它们形态各异，藏匿于文本的各个角落，稍不留神就会给你带来麻烦。

特殊字符的种类：
- 标点符号： 比如，句号、逗号、问号、叹号等等，有时候需要去除，有时候需要保留。
- 控制字符： 比如，换行符、制表符、回车符等等，这些字符在文本中不可见，但会影响数据的处理。
- HTML标签： 比如，<p>、<a>、<div>等等，这些标签在网页文本中很常见，但在分析文本内容时需要去除。
- Emoji表情： 比如，😊、😂、👍等等，这些表情在社交媒体文本中很常见，但有时候需要去除。
- 其他符号： 比如，货币符号（¥、$、€）、数学符号（+、-、×、÷）、版权符号（©）等等。
去除特殊字符的工具：
- 字符串替换： 使用replace()函数，将指定的特殊字符替换为空字符串。这种方法简单直接，但只能处理少量的特殊字符。
```
text = "Hello! World?"
text = text.replace("!", "").replace("?", "")
print(text) # 输出：Hello World
```
- 正则表达式： 再次祭出我们的瑞士军刀——正则表达式！它可以匹配各种复杂的特殊字符，然后将它们替换为空字符串。
```
import re
text = "Hello!@#$%^&*()_+ World?"
text = re.sub(r'[^ws]', '', text) # 去除非字母、数字、空格的字符
print(text) # 输出：Hello World
```
  这里的[^ws]表示匹配所有非字母、数字、空格的字符。^表示取反，w表示字母数字，s表示空格。
- 第三方库： 比如，Beautiful Soup库可以用来解析HTML文本，并去除HTML标签。
```
from bs4 import BeautifulSoup
html = "<p>Hello World</p><a>Link</a>"
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text() # 获取文本内容，去除HTML标签
print(text) # 输出：Hello WorldLink
```

表格示例：

原始数据清洗后数据使用方法

"Hello! World?" "Hello World" replace("!", "").replace("?", "")

"Hello!@#$%^&*()_+ World?" "Hello World" re.sub(r'[^ws]', '', text)

原始数据	清洗后数据	使用方法
"Hello! World?"	"Hello World"	`replace("!", "").replace("?", "")`
"Hello!@#$%^&*()_+ World?"	"Hello World"	`re.sub(r'[^ws]', '', text)`
" Hello World "	"Hello World"	`BeautifulSoup(html, 'html.parser').get_text()`

Hello World

"Hello World"

BeautifulSoup(html, 'html.parser').get_text()

三、大小写转换：数据界的“变脸术”，统一标准

大小写不一致，就像数据穿了不同的衣服，看起来不一样，但本质上是同一个人。为了方便数据分析，我们需要统一数据的大小写。

大小写不一致的危害：
- 影响匹配： 比如，你想搜索“Apple”，结果数据里存的是“apple”，你就搜不到了，简直是捶胸顿足！
- 影响统计： 统计词频时，"Apple" 和 "apple"会被认为是两个不同的词，导致分析结果失真。
大小写转换的工具：

Python自带的lower()、upper()、capitalize()函数，帮你轻松实现大小写转换。
- lower()：将字符串转换为小写，就像把你的西装换成休闲装，让你看起来更随意。
- upper()：将字符串转换为大写，就像把你的休闲装换成西装，让你看起来更正式。
- capitalize()：将字符串的首字母转换为大写，其余字母转换为小写，就像给你的名字加个头衔，让你看起来更尊贵。
```
text = "Hello World"
print(text.lower())    # 输出：hello world
print(text.upper())    # 输出：HELLO WORLD
print(text.capitalize()) # 输出：Hello world
```
当然，如果你想更高级一点，可以使用title()函数，将字符串中每个单词的首字母转换为大写。
```
text = "hello world"
print(text.title()) # 输出：Hello World
```

表格示例：

原始数据	清洗后数据	使用方法
"Hello World"	"hello world"	`lower()`
"Hello World"	"HELLO WORLD"	`upper()`
"hello world"	"Hello world"	`capitalize()`
"hello world"	"Hello World"	`title()`

实战演练：清洗评论数据

现在，我们来一个实战演练，清洗一些评论数据。假设我们有以下评论数据：

comments = [
    "  This is a great product!  ",
    "I LOVE it!!!",
    " It's okay... ",
    "bad product!!! ",
    "  good.  "
]

我们想要将这些评论数据清洗成以下格式：

去除首尾空格
转换为小写
去除标点符号

import re

comments = [
    "  This is a great product!  ",
    "I LOVE it!!!",
    " It's okay... ",
    "bad product!!! ",
    "  good.  "
]

cleaned_comments = []
for comment in comments:
    comment = comment.strip() # 去除首尾空格
    comment = comment.lower() # 转换为小写
    comment = re.sub(r'[^ws]', '', comment) # 去除标点符号
    cleaned_comments.append(comment)

print(cleaned_comments)
# 输出：['this is a great product', 'i love it', 'its okay', 'bad product', 'good']

总结：数据清洗，任重道远

数据清洗，就像给数据做SPA，让它焕发青春活力。今天我们学习了去除空格、特殊字符和大小写转换这三大步骤，掌握了这些基本技能，你就可以处理大部分的文本数据清洗任务了。

但是，数据清洗是一个永无止境的过程。不同的数据有不同的特点，需要灵活运用各种技巧。希望大家在实践中不断学习，不断进步，成为数据清洗的高手！

最后，送给大家一句名言：

“数据清洗做得好，分析结果没烦恼！”

谢谢大家！咱们下次再见！😉

发表回复 取消回复

发表回复取消回复