数据质量管理：数据清洗、去重与标准化方法 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位数据玩家们，晚上好！🎉 今天咱们不开严肃的技术研讨会，而是来一场数据质量管理的“脱口秀”，聊聊数据清洗、去重和标准化这三位数据界的“美容师”。

想象一下，你辛辛苦苦收集了一堆数据，结果打开一看，好家伙，简直像刚从垃圾堆里捡来的：格式五花八门，信息残缺不全，重复数据满天飞。这种数据，别说用来做分析，光是看着就让人头大！🤯

所以，数据清洗、去重和标准化这三位“美容师”就显得尤为重要了。它们就像三把手术刀，能把这些“脏乱差”的数据，变成可以放心使用的“白富美”。😎

第一幕：数据清洗——给数据洗个“香香澡”

数据清洗，顾名思义，就是把数据里的“脏东西”洗掉。这些“脏东西”包括：

缺失值： 数据里空空如也的单元格，就像你精心准备的菜谱，突然发现少了关键的调味料。
错误值： 数据里明显不符合常理的值，比如一个人的年龄是200岁，或者一个产品的价格是负数。
异常值： 数据里偏离正常范围的值，比如在全国平均工资5000元的情况下，突然出现一个月薪100万的大佬。
格式错误： 数据格式不统一，比如日期格式有的是“YYYY-MM-DD”，有的是“MM/DD/YYYY”，看得人眼花缭乱。
不一致性： 同一个数据在不同的地方有不同的表示，比如同一个客户的名字，在一个表里是“张三”，在另一个表里是“张小三”。

如何给数据洗个“香香澡”呢？

缺失值处理：

删除： 简单粗暴，直接把包含缺失值的行或列删掉。但这种方法容易损失信息，慎用！
填充： 用一些值来填充缺失值。常用的填充方法有：
- 均值/中位数/众数填充： 用该列的均值、中位数或众数来填充缺失值。简单易用，但可能引入偏差。
- 固定值填充： 用一个固定的值来填充缺失值，比如用“未知”、“缺失”等。
- 回归/插值填充： 用回归模型或插值方法来预测缺失值。更复杂，但效果可能更好。
- KNN填充： 利用KNN算法，寻找与缺失值样本相似的K个样本，用这K个样本的均值或者众数填充缺失值。
- 多重插补（Multiple Imputation）： 通过模拟多个可能的数据集来估计缺失值，从而减少偏差。

填充方法	优点	缺点	适用场景
均值/中位数/众数	简单快捷	可能引入偏差，忽略了其他特征的影响	缺失值较少，数据分布比较均匀的情况
固定值填充	简单易懂	可能引入人为偏差	缺失值含义明确，如“未知”、“缺失”等
回归/插值填充	考虑了其他特征的影响，预测精度较高	计算复杂，对模型要求较高	缺失值与其它特征有较强的相关性
KNN填充	能够考虑到样本之间的相似性，填充结果较为合理	计算复杂度高，对数据规模敏感，需要选择合适的K值	数据集中存在相似样本，且缺失值与其他特征相关性较高
多重插补	能够更准确地估计缺失值，减少偏差，提供多个合理的数据集	计算复杂，需要选择合适的插补模型和参数	缺失值较多，对数据质量要求较高的情况

错误值处理：
- 检查约束条件： 比如年龄不能小于0，也不能大于150。
- 人工修正： 如果错误值比较少，可以直接人工修正。
- 使用业务规则： 根据业务规则来修正错误值。比如，如果一个订单的金额小于0，可以将其设置为0。
异常值处理：
- 删除： 如果异常值是明显的错误，可以直接删除。
- 修正： 如果异常值是合理的，但偏离正常范围太远，可以将其修正到正常范围。比如，可以用盖帽法（Winsorization）将异常值替换为最大或最小值。
- 保留： 如果异常值是合理的，并且包含有用的信息，可以保留。
格式错误处理：
- 统一格式： 将所有数据统一成一种格式。比如，将日期格式统一成“YYYY-MM-DD”。
- 数据类型转换： 将数据转换成正确的数据类型。比如，将字符串类型的数字转换成数值类型。
不一致性处理：
- 统一命名： 将同一个数据在不同的地方的命名统一起来。
- 建立主键： 为每个数据建立一个唯一的主键，用于标识该数据。

举个栗子： 假设我们有一个客户信息表，其中包含以下字段：

客户ID
姓名
年龄
性别
电话号码
地址

经过检查，我们发现：

年龄字段有缺失值。
性别字段有“男”、“女”、“未知”三种取值。
电话号码字段格式不统一，有的是“138xxxxxxxx”，有的是“138 xxxx xxxx”。
地址字段有些是中文，有些是英文。

针对这些问题，我们可以采取以下措施：

用年龄字段的均值填充缺失值。
将性别字段的“未知”替换为“其他”。
将电话号码字段的格式统一成“138xxxxxxxx”。
将地址字段统一成中文。

第二幕：数据去重——让数据“瘦身”

数据去重，就是把数据里重复的记录删掉，就像给衣柜“断舍离”，把那些重复的衣服扔掉一样。🗑️

重复数据产生的原因有很多，比如：

数据采集错误： 同一条数据被重复采集。
数据合并错误： 在合并多个数据源时，没有正确处理重复数据。
人为错误： 人工录入数据时，重复录入。

如何给数据“瘦身”呢？

完全重复： 所有字段的值都相同的记录。直接删除即可。
部分重复： 某些字段的值相同，但其他字段的值不同。需要根据业务规则来判断是否重复。比如，如果两个客户的姓名、电话号码和地址都相同，但年龄不同，可以认为这两个客户是同一个人，但年龄信息有误。

去重的方法：

基于SQL： 使用SQL语句的DISTINCT关键字或GROUP BY子句来去重。
基于Python： 使用Python的pandas库的drop_duplicates()方法来去重。
基于Excel： 使用Excel的“删除重复项”功能来去重。

举个栗子： 假设我们有一个客户信息表，其中包含以下字段：

客户ID
姓名
年龄
性别
电话号码
地址

经过检查，我们发现有两条记录的姓名、电话号码和地址都相同，但客户ID不同。我们可以认为这两条记录是重复的，应该删除其中一条。

第三幕：数据标准化——让数据“穿上统一的制服”

数据标准化，就是把数据转换成统一的格式，让它们“穿上统一的制服”，方便后续的分析和处理。👔

数据标准化的原因有很多，比如：

量纲不一致： 不同的数据可能有不同的量纲，比如身高用米表示，体重用千克表示。
数值范围不同： 不同的数据可能有不同的数值范围，比如年龄的范围是0-150，收入的范围是0-无穷大。
数据分布不同： 不同的数据可能有不同的数据分布，比如有些数据是正态分布，有些数据是均匀分布。

如何让数据“穿上统一的制服”呢？

Min-Max标准化： 将数据缩放到0-1之间。公式如下：
```
x' = (x - min) / (max - min)
```
其中，x是原始数据，min是数据的最小值，max是数据的最大值，x’是标准化后的数据。
Z-Score标准化： 将数据缩放到均值为0，标准差为1的标准正态分布。公式如下：
```
x' = (x - μ) / σ
```
其中，x是原始数据，μ是数据的均值，σ是数据的标准差，x’是标准化后的数据。
小数定标标准化： 通过移动小数点的位置来进行标准化。小数点移动多少位取决于数据的最大值的绝对值。公式如下：
```
x' = x / 10^k
```
其中，x是原始数据，k是使得max(|x’|) < 1的最小整数。

标准化方法	优点	缺点	适用场景
Min-Max标准化	简单易懂，能够将数据缩放到0-1之间	对异常值敏感，如果数据集中存在异常值，可能会影响标准化效果	数据分布比较集中的情况，或者需要将数据缩放到特定范围的情况
Z-Score标准化	对异常值不敏感，能够将数据缩放到标准正态分布	需要计算均值和标准差，计算量稍大	数据分布近似正态分布的情况，或者需要比较不同数据集之间的数据
小数定标标准化	简单易懂，能够通过移动小数点来缩小数据范围	需要手动选择小数点移动的位数，可能不够灵活	数据范围较大，且需要快速缩小数据范围的情况

举个栗子： 假设我们有两个特征：

身高（单位：米）：范围是1.5-2.0
体重（单位：千克）：范围是50-100

如果直接使用这两个特征进行分析，身高对结果的影响可能会小于体重，因为体重的数值范围更大。为了消除量纲和数值范围的影响，我们可以对这两个特征进行标准化。

使用Min-Max标准化，将身高和体重都缩放到0-1之间。
使用Z-Score标准化，将身高和体重都缩放到均值为0，标准差为1的标准正态分布。

总结：

数据清洗、去重和标准化是数据质量管理的三大基石。只有做好这三项工作，才能保证数据的质量，为后续的分析和建模提供可靠的基础。

希望今天的“脱口秀”能让你对数据质量管理有更深入的了解。记住，数据质量是数据分析的生命线，一定要重视！💪

最后，送给大家一句数据界的至理名言：

“数据质量好，分析没烦恼！” 😄

如果大家有什么问题，欢迎随时提问！ 🎤

发表回复 取消回复

发表回复取消回复