数据分析：NumPy 在数据清洗与预处理中的应用 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

数据分析：NumPy 在数据清洗与预处理中的应用 – 编程专家老王来啦！

各位观众老爷们，大家好！我是你们的老朋友，人称“代码界的段子手”——老王！今天咱们不聊八卦，不谈人生，就来唠唠数据分析界的一位“老黄牛”—— NumPy！

话说啊，数据分析这个行当，就像是淘金。你得先从泥沙俱下的原始数据里，一点一点淘出闪闪发光的金子。而 NumPy，就是你淘金的铲子、筛子、甚至是水泵！没有它，你只能用手刨，累死不说，还可能把金子当石头给扔了！

今天，老王就以讲座的形式，深入浅出地跟大家聊聊 NumPy 在数据清洗与预处理中的应用。保证让你听得懂、学得会、用得上，从此告别“数据清洗两行泪”的悲惨命运！

第一章：NumPy 登场！数据世界的“瑞士军刀”

要说 NumPy 是啥？简单来说，它就是一个 Python 的扩展程序库，专门用来处理大型多维数组和矩阵运算的。你可能会觉得这玩意儿听起来很学术、很枯燥？NONONO！它就像数据世界的“瑞士军刀”，功能强大，而且用起来还挺顺手！

数组，数据的“集装箱”： NumPy 的核心是 ndarray 对象，也就是多维数组。你可以把它想象成一个“集装箱”，里面可以装各种各样的数据，比如数字、字符串、甚至更复杂的数据结构。比起 Python 自带的列表，NumPy 数组的优势在于：
- 效率更高： NumPy 数组底层是用 C 语言实现的，运算速度杠杠的，处理大数据那叫一个快！
- 功能更强： NumPy 提供了大量的函数，可以对数组进行各种操作，比如排序、切片、变形、统计等等，简直是数据处理的福音！
为啥要用 NumPy？ 你想想，如果你要计算一堆数据的平均值、中位数、标准差，用 Python 列表的话，你得自己写循环、写函数，累死累活。但是，如果用 NumPy，只需要一行代码搞定！简直是懒人福音！

第二章：数据清洗，让“脏数据”变干净！

数据清洗是数据分析的第一步，也是最重要的一步。因为原始数据往往是“脏”的，里面可能包含缺失值、重复值、异常值、错误格式等等。这些“脏数据”就像搅屎棍，会严重影响你的分析结果。

NumPy 在数据清洗方面，简直就是一把手术刀，可以帮你精准地切除这些“坏肉”。

处理缺失值： 缺失值就像数据里的“黑洞”，让你无从下手。NumPy 提供了 NaN (Not a Number) 来表示缺失值。你可以用 NumPy 的函数来检测、替换、甚至删除这些缺失值。
- 检测缺失值： 使用 np.isnan() 函数可以检测数组中的哪些元素是 NaN。
```
import numpy as np

data = np.array([1, 2, np.nan, 4, np.nan])
is_nan = np.isnan(data)
print(is_nan)  # 输出: [False False  True False  True]
```
- 替换缺失值： 你可以用 np.nan_to_num() 函数将 NaN 替换成其他值，比如 0、平均值、中位数等等。
```
data = np.array([1, 2, np.nan, 4, np.nan])
# 用 0 替换缺失值
data_filled = np.nan_to_num(data, nan=0.0)
print(data_filled)  # 输出: [1. 2. 0. 4. 0.]

# 用平均值替换缺失值
mean_value = np.nanmean(data) # 先计算平均值，忽略 NaN
data_filled = np.where(np.isnan(data), mean_value, data)  # 条件替换
print(data_filled)
```
- 删除缺失值： 如果缺失值太多，或者实在无法填充，你可以选择删除包含缺失值的行或列。这个可以用 pandas 库配合实现，后续会提到。
处理重复值： 重复值就像数据里的“复制粘贴”，会扭曲你的分析结果。NumPy 本身处理重复值的能力有限，通常需要配合 pandas 库来完成。
- pandas 提供了 duplicated() 函数来检测重复值，drop_duplicates() 函数来删除重复值。
```
import pandas as pd
data = pd.DataFrame({'col1': [1, 2, 2, 3, 4, 4], 'col2': ['a', 'b', 'b', 'c', 'd', 'd']})
# 检测重复行
duplicated_rows = data.duplicated()
print(duplicated_rows)

# 删除重复行
data_no_duplicates = data.drop_duplicates()
print(data_no_duplicates)
```
处理异常值： 异常值就像数据里的“叛徒”，会严重影响你的分析结果。NumPy 提供了多种方法来检测和处理异常值。
- 箱线图 (Box Plot)： 通过计算数据的四分位数，可以很容易地识别出异常值。高于上四分位数或低于下四分位数的点通常被认为是异常值。
```
import numpy as np
import matplotlib.pyplot as plt #需要安装 matplotlib

data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100])
plt.boxplot(data)
plt.show()
```
- Z-Score： 计算每个数据点与平均值的距离，以标准差为单位。通常，Z-Score 大于 3 或小于 -3 的点被认为是异常值。
```
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100])
mean = np.mean(data)
std = np.std(data)
z_scores = (data - mean) / std
print(z_scores)
```
- IQR (Interquartile Range)： 计算数据的四分位距，然后将低于 Q1 – 1.5 IQR 或高于 Q3 + 1.5 IQR 的点视为异常值。
```
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100])
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
print(lower_bound, upper_bound)
```
- 处理方式： 对于异常值，你可以选择删除、替换、或者将其转换到合理范围内。具体怎么处理，取决于你的业务场景和数据特点。
处理错误格式： 原始数据中，数据的格式可能不统一，比如日期格式不一致、字符串包含空格等等。NumPy 可以帮你转换数据格式，使其符合你的分析需求。
- 数据类型转换： 使用 astype() 函数可以将数组的数据类型转换为其他类型，比如将字符串转换为数字。
```
data = np.array(['1', '2', '3', '4', '5'])
data_int = data.astype(int)
print(data_int)  # 输出: [1 2 3 4 5]
```
- 字符串处理： 可以使用 NumPy 的字符串函数来处理字符串数组，比如去除空格、大小写转换等等。
```
data = np.array(['  hello  ', ' world  '])
data_stripped = np.char.strip(data) #去除空格
print(data_stripped)
```

第三章：数据预处理，让数据“改头换面”！

数据预处理是在数据清洗之后进行的，目的是将数据转换成更适合分析的格式。NumPy 在数据预处理方面，也是一把好手。

数据标准化： 数据标准化是指将数据缩放到一个特定的范围内，比如 0 到 1 之间。这可以消除不同特征之间的量纲影响，提高模型的精度。

Min-Max Scaling： 将数据缩放到 0 到 1 之间。

data = np.array([1, 2, 3, 4, 5])
min_value = np.min(data)
max_value = np.max(data)
data_scaled = (data - min_value) / (max_value - min_value)
print(data_scaled)

Z-Score Standardization： 将数据缩放到均值为 0，标准差为 1。

data = np.array([1, 2, 3, 4, 5])
mean_value = np.mean(data)
std_value = np.std(data)
data_standardized = (data - mean_value) / std_value
print(data_standardized)

数据离散化： 数据离散化是指将连续数据转换为离散数据。这可以简化数据，减少模型的复杂度。

等宽离散化： 将数据分成若干个宽度相等的区间。

data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
bins = np.linspace(data.min(), data.max(), 5) # 分成5个区间
indices = np.digitize(data, bins)
print(indices)

等频离散化： 将数据分成若干个包含相同数量数据点的区间。

data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
quantiles = np.percentile(data, [25, 50, 75]) # 计算四分位数
print(quantiles)

数据编码： 数据编码是指将类别数据转换为数值数据。这可以方便模型进行处理。
- One-Hot Encoding： 将每个类别转换为一个二进制向量，向量中只有一个元素为 1，其余元素为 0。
```
import pandas as pd
data = pd.DataFrame({'category': ['A', 'B', 'C', 'A', 'B']})
data_encoded = pd.get_dummies(data, columns=['category'])
print(data_encoded)
```
特征提取： 特征提取是指从原始数据中提取出有用的特征。NumPy 可以用于进行各种特征提取操作，比如计算统计特征、文本特征等等。

第四章：NumPy 的“好基友”：Pandas 和 Scikit-learn

NumPy 虽然很强大，但它并不是万能的。在数据分析领域，它通常需要配合其他库一起使用，比如 Pandas 和 Scikit-learn。

Pandas：数据分析的“变形金刚”
- Pandas 是一个基于 NumPy 的数据分析库，提供了 DataFrame 和 Series 两种数据结构，可以方便地进行数据清洗、预处理、分析和可视化。
- Pandas 就像数据分析的“变形金刚”，可以帮你把数据转换成各种你需要的格式。
- 很多数据清洗和预处理的操作，比如处理缺失值、重复值、字符串等等，用 Pandas 来做会更方便。
Scikit-learn：机器学习的“百宝箱”
- Scikit-learn 是一个机器学习库，提供了大量的机器学习算法，比如分类、回归、聚类等等。
- Scikit-learn 就像机器学习的“百宝箱”，里面装满了各种各样的工具。
- 数据清洗和预处理是机器学习的第一步，NumPy 可以为 Scikit-learn 提供高质量的数据。

第五章：实战演练：一个简单的数据清洗与预处理案例

光说不练假把式！老王现在就带大家做一个简单的数据清洗与预处理案例，让你感受一下 NumPy 的威力！

案例： 假设我们有一份关于用户信息的 CSV 文件，包含以下字段：

user_id：用户ID
age：年龄
gender：性别 (male/female)
income：收入

任务： 对这份数据进行清洗和预处理，以便进行后续的分析。

步骤：

导入数据： 使用 Pandas 读取 CSV 文件。

import pandas as pd
import numpy as np

data = pd.read_csv('user_data.csv') # 假设文件名为 user_data.csv，需要自行创建
print(data.head())

处理缺失值： 检查是否存在缺失值，并用平均值填充 age 列的缺失值，用众数填充 gender 列的缺失值。

print(data.isnull().sum()) # 查看缺失值数量

data['age'].fillna(data['age'].mean(), inplace=True) # 填充年龄缺失值
data['gender'].fillna(data['gender'].mode()[0], inplace=True) # 填充性别缺失值
print(data.isnull().sum())

处理异常值： 使用箱线图检测 income 列的异常值，并将超过上下界的值替换为上下界的值。

import matplotlib.pyplot as plt

plt.boxplot(data['income'])
plt.show() # 观察是否有明显异常值

q1 = data['income'].quantile(0.25)
q3 = data['income'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr

data['income'] = np.where(data['income'] < lower_bound, lower_bound, data['income'])
data['income'] = np.where(data['income'] > upper_bound, upper_bound, data['income'])

plt.boxplot(data['income'])
plt.show() # 再次观察

数据编码： 使用 One-Hot Encoding 对 gender 列进行编码。

data = pd.get_dummies(data, columns=['gender'])
print(data.head())

数据标准化： 使用 Min-Max Scaling 对 age 和 income 列进行标准化。

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
data[['age', 'income']] = scaler.fit_transform(data[['age', 'income']])
print(data.head())

第六章：总结与展望

好了，各位！今天的讲座就到这里了。相信大家对 NumPy 在数据清洗与预处理中的应用已经有了一个比较全面的了解。

总而言之，NumPy 是数据分析的基石，掌握 NumPy 可以让你在数据分析的道路上事半功倍。

未来，随着数据量的不断增长，数据分析的重要性也会越来越高。希望大家能够不断学习，不断进步，成为一名优秀的数据分析师！

最后，老王再给大家分享几点学习建议：

多练习： 光看不练假把式！多动手写代码，才能真正掌握 NumPy 的用法。
多看文档： NumPy 官方文档是最好的学习资料，里面包含了 NumPy 的所有函数和用法。
多交流： 和其他数据分析师交流经验，可以让你更快地成长。

希望大家在数据分析的道路上越走越远，早日实现财富自由！ 💰💰💰

感谢大家的观看！如果觉得老王讲得还不错，记得点赞、评论、转发哦！咱们下期再见！ 👋👋👋

(别忘了自行创建 user_data.csv 文件进行练习哦!)

数据分析：NumPy 在数据清洗与预处理中的应用 – 编程专家老王来啦！

发表回复 取消回复

发表回复取消回复