不一致数据处理：模糊匹配与数据清洗技巧 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，朋友们！今天咱们来聊聊数据界的“整容大师”和“侦探福尔摩斯”——不一致数据处理：模糊匹配与数据清洗技巧。

想象一下，你是一位国王，掌握着一个庞大的王国（数据库），但你的臣民（数据）却良莠不齐，有的衣衫褴褛（格式错误），有的口音古怪（拼写不一致），有的甚至冒充身份（重复记录）。你要如何治理这个王国，让它井然有序，欣欣向荣呢？这就要用到我们今天的主角：模糊匹配和数据清洗！

第一幕：数据王国危机四伏

咱们先来看看王国里都有些什么“妖魔鬼怪”：

格式不统一的臣民: 日期有“2023-10-27”、“10/27/2023”、“Oct 27th, 2023”三种写法，让人摸不着头脑。电话号码有“138-0000-0000”、“13800000000”、“+86 138 0000 0000”各种变体。
口音古怪的臣民： “苹果”写成“苹菓”、“ピングル”、“apple”…虽然都知道是苹果，但计算机可不这么认为。
身份不明的臣民： 同一个客户，一会儿叫“李雷”，一会儿叫“Lei Li”，一会儿又叫“L. Lei”。
信息缺失的臣民： 有些臣民只登记了姓名，其他信息一概没有，简直就是“黑户”。
错误百出的臣民： 年龄填成“-1”，性别填成“喵星人”，城市填成“火星”…简直是来捣乱的！

这些“妖魔鬼怪”会导致什么问题呢？

分析瘫痪： 统计苹果销量时，因为“苹果”和“苹菓”被认为是不同的东西，导致销量统计不准确。
决策失误： 客户画像不准确，导致营销活动效果不佳。
资源浪费： 重复的客户记录导致重复发送邮件，浪费资源。

所以，治理数据王国刻不容缓！

第二幕：数据清洗——王国的“整容术”

数据清洗，顾名思义，就是把“脏数据”洗干净，让它们焕然一新。就像给灰头土脸的臣民洗个澡，换身干净衣服。

数据清洗通常包括以下步骤：

格式标准化： 把所有日期统一成“YYYY-MM-DD”格式，电话号码统一成“13800000000”格式，货币统一成“CNY”。我们可以写个函数来干这些事, 举个栗子：

import re
def standardize_phone_number(phone_number):
    """
    标准化电话号码格式，移除所有非数字字符，只保留数字
    """
    cleaned_number = re.sub(r'D', '', phone_number) # 移除所有非数字字符
    return cleaned_number

去重： 找出重复的记录，只保留一份。去重策略有很多，可以根据业务需求选择。比如，完全匹配，字段组合匹配，模糊匹配等。

import pandas as pd

def remove_duplicates(df, subset=None):
    """
    移除DataFrame中的重复行。

    参数:
    df (pd.DataFrame):  要处理的DataFrame。
    subset (list, 可选): 用于识别重复项的列的列表。如果为None，则使用所有列。默认为None。

    返回:
    pd.DataFrame: 移除重复行后的DataFrame。
    """
    df_cleaned = df.drop_duplicates(subset=subset, keep='first') # keep='first'保留第一个出现的重复项
    return df_cleaned

缺失值处理： 对于缺失的信息，可以填充默认值、使用平均值/中位数填充、或者直接删除。填空题，你总得选一个吧？

def handle_missing_values(df, method='mean', column=None, fill_value=None):
    """
    处理DataFrame中的缺失值。

    参数:
    df (pd.DataFrame):  要处理的DataFrame。
    method (str, 可选):  处理缺失值的方法。可以是 'mean' (平均值), 'median' (中位数), 'constant' (常量). 默认为 'mean'。
    column (str, 可选):  要处理的列名。如果为None，则处理所有包含缺失值的列。默认为None。
    fill_value (any, 可选):  当 method 为 'constant' 时，用于填充缺失值的常量值。默认为None。

    返回:
    pd.DataFrame: 处理缺失值后的DataFrame。
    """
    if column is None:
        columns_with_missing = df.columns[df.isnull().any()].tolist()
    else:
        columns_with_missing = [column]

    df_filled = df.copy() # 创建一个副本，避免修改原始DataFrame

    for col in columns_with_missing:
        if method == 'mean':
            df_filled[col].fillna(df_filled[col].mean(), inplace=True)
        elif method == 'median':
            df_filled[col].fillna(df_filled[col].median(), inplace=True)
        elif method == 'constant':
            if fill_value is None:
                raise ValueError("必须提供 fill_value 当 method 为 'constant'")
            df_filled[col].fillna(fill_value, inplace=True)
        else:
            raise ValueError("无效的 method. 请选择 'mean', 'median', 或 'constant'.")

    return df_filled

异常值处理： 对于明显错误的数值，可以删除、修正、或者用合理的值代替。比如年龄为-1，明显是错误的，可以删除或者修正为平均年龄。

def handle_outliers(df, column, lower_threshold=None, upper_threshold=None):
    """
    处理DataFrame中的异常值。

    参数:
    df (pd.DataFrame):  要处理的DataFrame。
    column (str):  要处理的列名。
    lower_threshold (float, 可选):  下限阈值。低于此值的任何值都将被视为异常值。默认为None。
    upper_threshold (float, 可选):  上限阈值。高于此值的任何值都将被视为异常值。默认为None。

    返回:
    pd.DataFrame: 处理异常值后的DataFrame。
    """
    df_cleaned = df.copy()

    if lower_threshold is not None:
        df_cleaned[column] = df_cleaned[column].where(df_cleaned[column] >= lower_threshold, lower_threshold)
    if upper_threshold is not None:
        df_cleaned[column] = df_cleaned[column].where(df_cleaned[column] <= upper_threshold, upper_threshold)

    return df_cleaned

数据转换： 将数据转换成适合分析的格式。比如，将文本数据转换成数值数据，或者将多个字段合并成一个字段。

def convert_data_type(df, column, data_type):
    """
    将DataFrame中特定列的数据类型转换为指定的数据类型。

    参数:
    df (pd.DataFrame): 要处理的DataFrame。
    column (str): 要转换的列名。
    data_type (str): 目标数据类型。例如，'int', 'float', 'str', 'datetime'。

    返回:
    pd.DataFrame: 转换数据类型后的DataFrame。
    """
    df_converted = df.copy()
    try:
        df_converted[column] = df_converted[column].astype(data_type)
    except ValueError as e:
        print(f"转换列 {column} 为 {data_type} 类型时出错: {e}")
    except KeyError as e:
        print(f"列 {column} 不存在: {e}")
    return df_converted

第三幕：模糊匹配——王国的“侦探术”

数据清洗只能解决一部分问题，对于“口音古怪”和“身份不明”的臣民，就需要用到模糊匹配了。模糊匹配就像一位侦探，能够从蛛丝马迹中找到线索，把相似但不完全相同的数据关联起来。

常用的模糊匹配算法包括：

编辑距离（Levenshtein Distance）： 衡量两个字符串之间的相似度，通过计算将一个字符串转换成另一个字符串所需的最少编辑操作次数（插入、删除、替换）。编辑距离越小，相似度越高。举个栗子，“apple”和“aplle”的编辑距离为1。

import Levenshtein

def calculate_levenshtein_distance(str1, str2):
    """
    计算两个字符串的Levenshtein距离。

    参数:
    str1 (str): 第一个字符串。
    str2 (str): 第二个字符串。

    返回:
    int: Levenshtein距离。
    """
    distance = Levenshtein.distance(str1, str2)
    return distance

Jaro-Winkler Distance： 也是衡量字符串相似度的算法，它在Jaro Distance的基础上，考虑了字符串前缀的匹配程度。前缀匹配程度越高，相似度越高。

import Levenshtein

def calculate_jaro_winkler_similarity(str1, str2):
    """
    计算两个字符串的Jaro-Winkler相似度。

    参数:
    str1 (str): 第一个字符串。
    str2 (str): 第二个字符串。

    返回:
    float: Jaro-Winkler相似度 (范围 0 到 1)。
    """
    similarity = Levenshtein.jaro_winkler(str1, str2)
    return similarity

余弦相似度（Cosine Similarity）： 将字符串转换成向量，通过计算两个向量之间的夹角余弦值来衡量相似度。常用于文本相似度分析。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def calculate_cosine_similarity(text1, text2):
    """
    计算两个文本字符串的余弦相似度。

    参数:
    text1 (str): 第一个文本字符串。
    text2 (str): 第二个文本字符串。

    返回:
    float: 余弦相似度 (范围 -1 到 1)。
    """
    # 使用 TF-IDF 向量化文本
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform([text1, text2])

    # 计算余弦相似度
    similarity = cosine_similarity(vectors[0], vectors[1])[0][0]
    return similarity

Soundex算法： 一种语音算法，将发音相似的字符串编码成相同的字符串。常用于英文姓名匹配。

import jellyfish

def calculate_soundex(text):
    """
    计算字符串的Soundex编码。

    参数:
    text (str): 要编码的字符串。

    返回:
    str: Soundex编码。
    """
    soundex_code = jellyfish.soundex(text)
    return soundex_code

模糊匹配的应用场景：

客户信息合并： 将“李雷”、“Lei Li”、“L. Lei”合并成同一个客户。
产品信息匹配： 将“苹果”、“苹菓”、“apple”匹配成同一个产品。
地址信息标准化： 将不同的地址写法标准化成统一的格式。

第四幕：实战演练——数据王国的“大阅兵”

光说不练假把式，咱们来个实战演练。假设我们有一个客户信息表，包含姓名、电话和地址三个字段。

姓名	电话	地址
李雷	13800000000	北京市朝阳区
Lei Li	138-0000-0000	北京朝阳
L. Lei	+8613800000000	北京市海淀区
韩梅梅	13900000000	上海市浦东新区
Han Meimei	139-0000-0000	上海浦东

数据清洗：
- 标准化电话号码格式：使用standardize_phone_number函数。
- 标准化地址格式：可以使用正则表达式或者第三方库（比如geopy）进行地址解析和标准化。

模糊匹配：

使用编辑距离算法，计算姓名之间的相似度。
设定一个阈值（比如0.8），如果相似度大于阈值，则认为是同一个人。
合并相似的客户信息。

import pandas as pd
import Levenshtein

# 假设的客户信息数据
data = {'姓名': ['李雷', 'Lei Li', 'L. Lei', '韩梅梅', 'Han Meimei'],
        '电话': ['13800000000', '138-0000-0000', '+8613800000000', '13900000000', '139-0000-0000'],
        '地址': ['北京市朝阳区', '北京朝阳', '北京市海淀区', '上海市浦东新区', '上海浦东']}

df = pd.DataFrame(data)

# 1. 数据清洗 (标准化电话号码)
df['电话'] = df['电话'].apply(standardize_phone_number)

# 2. 模糊匹配 (使用编辑距离匹配姓名)
def find_matches(name, df, threshold=0.8):
    matches = []
    for index, row in df.iterrows():
        distance = Levenshtein.ratio(name, row['姓名']) # 使用ratio计算相似度
        if distance >= threshold:
            matches.append((index, distance))
    return matches

# 创建一个字典来存储匹配的客户
customer_matches = {}

# 遍历DataFrame，寻找每个客户的匹配项
for index, row in df.iterrows():
    name = row['姓名']
    matches = find_matches(name, df)
    customer_matches[index] = matches

# 打印匹配结果
for customer_index, matches in customer_matches.items():
    print(f"Customer {customer_index}: {df.iloc[customer_index]['姓名']}")
    for match_index, similarity in matches:
        if customer_index != match_index: # 避免与自己匹配
            print(f"  Matches with {match_index}: {df.iloc[match_index]['姓名']} (Similarity: {similarity:.2f})")

第五幕：总结与展望——王国的美好未来

通过数据清洗和模糊匹配，我们成功地治理了数据王国，让它焕发了新的生机。

格式统一的数据，让统计分析更加准确。
去重后的数据，节省了资源，提高了效率。
合并后的客户信息，让营销活动更加精准。

当然，数据治理是一个持续不断的过程。随着王国的发展，还会出现新的问题和挑战。我们需要不断学习新的技术和方法，才能让数据王国永远保持健康和活力。

一些额外的建议：

选择合适的算法： 不同的算法适用于不同的场景，要根据实际情况选择合适的算法。
设定合理的阈值： 阈值太高会导致漏匹配，阈值太低会导致误匹配，要根据实际情况调整阈值。
人工审核： 对于一些模糊匹配的结果，最好进行人工审核，确保匹配的准确性。
数据质量监控： 建立数据质量监控机制，及时发现和解决数据质量问题。

希望今天的分享对你有所帮助！记住，数据治理是一项需要耐心和细心的工作，但只要我们用心去做，就能让数据发挥出更大的价值！祝大家的数据王国越来越繁荣昌盛！ 🎉

发表回复 取消回复

发表回复取消回复