Python的ETL框架：深入解析Pandera和Great Expectations在数据验证和质量保证中的应用。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Python ETL 框架中的数据验证与质量保证：Pandera 与 Great Expectations 实战

大家好！今天我们来深入探讨 Python ETL (Extract, Transform, Load) 框架中，数据验证和质量保证的关键环节，并着重介绍两个强大的工具：Pandera 和 Great Expectations。数据质量是 ETL 流程成败的关键，而这两个库能够帮助我们构建健壮且可靠的数据管道。

一、数据质量的重要性与挑战

在 ETL 流程中，数据通常来自不同的来源，经过各种转换，最终加载到目标系统。在这个过程中，数据可能会受到多种因素的影响，例如：

数据源错误: 原始数据本身就存在问题，例如缺失值、错误的数据类型、不一致的格式等。
ETL 转换错误: 在转换过程中，由于代码错误、逻辑缺陷等原因，导致数据被错误地转换或处理。
数据漂移: 随着时间的推移，数据的分布或特征发生变化，导致模型或分析结果失效。

如果这些问题没有被及时发现和处理，就会导致：

错误的分析结果: 基于错误数据产生的分析报告会误导决策。
模型失效: 机器学习模型在训练数据上表现良好，但在实际应用中表现不佳，因为数据分布发生了变化。
数据集成问题: 不同系统之间的数据不一致，导致集成困难。
信任危机: 用户对数据的信任度降低，影响业务的正常运行。

因此，在 ETL 流程中进行数据验证和质量保证至关重要。我们需要建立一套机制，能够及时发现和报告数据质量问题，并采取相应的措施进行修复。

二、Pandera：基于 Schema 的数据验证

Pandera 是一个基于 schema 的数据验证库，它允许我们定义数据的预期结构和类型，并使用这些 schema 来验证 Pandas DataFrame。Pandera 的核心概念是 Schema，它定义了 DataFrame 的列名、数据类型、允许的值范围以及其他约束。

2.1 Pandera 的基本用法

首先，我们需要安装 Pandera：

pip install pandera

接下来，我们可以定义一个简单的 schema：

import pandas as pd
import pandera as pa
from pandera import Column, Check, SchemaModel

# 定义一个简单的 schema
class UserSchema(SchemaModel):
    user_id: Column[int] = Column(Check.greater_than(0))
    username: Column[str] = Column(Check.str_length(1, 50))
    age: Column[int] = Column(Check.in_range(0, 120))
    signup_date: Column[str] = Column(Check.str_matches(r"d{4}-d{2}-d{2}"))

# 创建一个符合 schema 的 DataFrame
data = {
    "user_id": [1, 2, 3],
    "username": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "signup_date": ["2023-01-01", "2023-02-15", "2023-03-20"],
}
df = pd.DataFrame(data)

# 验证 DataFrame
try:
    UserSchema.validate(df)
    print("DataFrame is valid!")
except pa.errors.SchemaError as e:
    print(f"DataFrame validation failed: {e}")

在这个例子中，我们定义了一个 UserSchema，它包含了 user_id、username、age 和 signup_date 四个列。我们为每个列指定了数据类型和一些约束条件，例如 user_id 必须大于 0，username 的长度必须在 1 到 50 之间，age 必须在 0 到 120 之间，signup_date 必须符合 YYYY-MM-DD 的格式。

2.2 Pandera 的高级特性

Pandera 还提供了一些高级特性，例如：

自定义 Check: 我们可以定义自己的检查函数，来验证数据的特定属性。
Schema 继承: 我们可以从现有的 schema 继承，并添加或修改列的定义。
Schema 组合: 我们可以将多个 schema 组合成一个更大的 schema。
Schema 注册: 我们可以将 schema 注册到 Pandera 的 registry 中，并在不同的地方重用它们。
nullable 参数: 允许列包含空值。
unique 参数: 确保列中的值是唯一的。

from pandera import Check

# 自定义检查函数
def is_valid_email(email: str) -> bool:
    return "@" in email and "." in email

# 定义一个包含自定义检查的 schema
class UserSchemaV2(SchemaModel):
    user_id: Column[int] = Column(Check.greater_than(0))
    username: Column[str] = Column(Check.str_length(1, 50))
    age: Column[int] = Column(Check.in_range(0, 120))
    signup_date: Column[str] = Column(Check.str_matches(r"d{4}-d{2}-d{2}"))
    email: Column[str] = Column(Check(is_valid_email), nullable=True) # 允许空值
    order_id: Column[int] = Column(Check.greater_than(0), unique=True) # 唯一值

# 创建一个符合 schema 的 DataFrame
data = {
    "user_id": [1, 2, 3],
    "username": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "signup_date": ["2023-01-01", "2023-02-15", "2023-03-20"],
    "email": ["[email protected]", "[email protected]", None],
    "order_id": [100, 101, 102]
}
df = pd.DataFrame(data)

# 验证 DataFrame
try:
    UserSchemaV2.validate(df)
    print("DataFrame is valid!")
except pa.errors.SchemaError as e:
    print(f"DataFrame validation failed: {e}")

2.3 在 ETL 流程中使用 Pandera

在 ETL 流程中，我们可以将 Pandera 集成到数据清洗和转换的环节。例如，我们可以定义一个 schema 来验证从数据源提取的数据，并在数据转换之后再次验证数据，以确保转换的正确性。

def extract_data(source: str) -> pd.DataFrame:
    # 从数据源提取数据
    # 这里只是一个示例，实际情况可能需要连接数据库、读取文件等
    if source == "source1":
        data = {
            "user_id": [1, 2, 3, 4],
            "username": ["Alice", "Bob", "Charlie", "David"],
            "age": [25, 30, 35, -1], # 包含错误数据
            "signup_date": ["2023-01-01", "2023-02-15", "2023-03-20", "2023-04-01"],
        }
        df = pd.DataFrame(data)
        return df
    else:
        return pd.DataFrame()

def transform_data(df: pd.DataFrame) -> pd.DataFrame:
    # 数据转换
    df["age"] = df["age"].clip(0, 120) # 将年龄限制在 0 到 120 之间
    return df

def load_data(df: pd.DataFrame, target: str):
    # 加载数据到目标系统
    # 这里只是一个示例，实际情况可能需要连接数据库、写入文件等
    print(f"Loading data to {target}...")
    print(df)

# ETL 流程
source = "source1"
target = "database"

# 提取数据
df = extract_data(source)

# 验证数据
try:
    UserSchema.validate(df)
    print("Extracted data is valid!")
except pa.errors.SchemaError as e:
    print(f"Extracted data validation failed: {e}")
    # 可以选择停止流程或进行数据清洗
    df = df[df["age"] > 0] # 清洗数据，移除错误数据

# 转换数据
df = transform_data(df)

# 再次验证数据
try:
    UserSchema.validate(df)
    print("Transformed data is valid!")
except pa.errors.SchemaError as e:
    print(f"Transformed data validation failed: {e}")

# 加载数据
load_data(df, target)

三、Great Expectations：基于期望的数据质量保证

Great Expectations (GE) 是一个用于数据质量保证的开源库。它允许我们定义数据的“期望”，并使用这些期望来验证数据的质量。GE 的核心概念是 Expectation，它描述了数据的某种属性，例如列的数据类型、值的范围、唯一性等。

3.1 Great Expectations 的基本用法

首先，我们需要安装 Great Expectations：

pip install great_expectations

接下来，我们需要初始化 Great Expectations 项目：

great_expectations init

这个命令会创建一个名为 great_expectations 的目录，其中包含了项目的配置文件、数据源定义、期望定义等。

然后，我们需要配置一个数据源，告诉 GE 如何连接到我们的数据。我们可以在 great_expectations/great_expectations.yml 文件中配置数据源。例如，我们可以配置一个 Pandas DataFrame 数据源：

datasources:
  my_pandas_datasource:
    class_name: PandasDatasource
    module_name: great_expectations.datasource
    execution_engine:
      class_name: PandasExecutionEngine
      module_name: great_expectations.execution_engine
    data_connectors:
      default_runtime_data_connector_name:
        class_name: RuntimeDataConnector
        batch_identifiers:
          - default_identifier_name

接下来，我们可以创建一个期望套件 (Expectation Suite)，它包含了我们对数据的期望。我们可以使用 GE 的命令行工具来创建期望套件：

great_expectations suite new --datasource my_pandas_datasource --data-connector default_runtime_data_connector_name --suite-name my_user_expectations

这个命令会创建一个名为 my_user_expectations.json 的期望套件文件，我们可以在这个文件中定义我们的期望。

我们可以使用 GE 的交互式工具来添加期望：

great_expectations suite edit my_user_expectations --datasource my_pandas_datasource --data-connector default_runtime_data_connector_name

这个命令会打开一个 Jupyter Notebook，我们可以在 Notebook 中添加期望。例如，我们可以添加以下期望：

# 期望 user_id 列的数据类型是 int64
validator.expect_column_values_to_be_of_type(
    column="user_id",
    type_="int64",
)

# 期望 username 列的值不为空
validator.expect_column_values_to_not_be_null(
    column="username",
)

# 期望 age 列的值在 0 到 120 之间
validator.expect_column_values_to_be_between(
    column="age",
    min_value=0,
    max_value=120,
)

# 期望 signup_date 列的值符合 YYYY-MM-DD 的格式
validator.expect_column_values_to_match_regex(
    column="signup_date",
    regex=r"d{4}-d{2}-d{2}",
)

最后，我们可以使用 GE 来验证数据：

import great_expectations as gx
import pandas as pd

# 创建一个 Great Expectations 上下文
context = gx.get_context()

# 获取数据源
datasource = context.datasources["my_pandas_datasource"]

# 创建一个符合 schema 的 DataFrame
data = {
    "user_id": [1, 2, 3],
    "username": ["Alice", "Bob", "Charlie"],
    "age": [25, 30, 35],
    "signup_date": ["2023-01-01", "2023-02-15", "2023-03-20"],
}
df = pd.DataFrame(data)

# 创建一个 BatchRequest
batch_request = datasource.build_batch_request(dataframe=df, batch_name="my_batch")

# 获取验证器
validator = context.get_validator(
    batch_request=batch_request,
    expectation_suite_name="my_user_expectations",
)

# 验证数据
validation_result = validator.validate()

# 打印验证结果
print(validation_result)

3.2 Great Expectations 的高级特性

Great Expectations 还提供了一些高级特性，例如：

Checkpoint: 我们可以定义一个 checkpoint，它包含了数据源、期望套件和验证配置。我们可以使用 checkpoint 来定期验证数据，并生成报告。
Data Docs: GE 可以生成 Data Docs，它包含了数据的元数据、期望定义和验证结果。Data Docs 可以帮助我们了解数据的质量，并追踪数据质量的变化。
自定义 Expectations: 我们可以定义自己的期望，来验证数据的特定属性。
集成: GE 可以与各种数据源和数据处理工具集成，例如 Spark、SQL 数据库、Airflow 等。

3.3 在 ETL 流程中使用 Great Expectations

在 ETL 流程中，我们可以将 Great Expectations 集成到数据提取、转换和加载的环节。例如，我们可以定义一个期望套件来验证从数据源提取的数据，并在数据转换之后再次验证数据，以确保转换的正确性。我们还可以使用 checkpoint 来定期验证目标系统中的数据，以确保数据的质量。

import great_expectations as gx
import pandas as pd

def extract_data(source: str) -> pd.DataFrame:
    # 从数据源提取数据
    # 这里只是一个示例，实际情况可能需要连接数据库、读取文件等
    if source == "source1":
        data = {
            "user_id": [1, 2, 3, 4],
            "username": ["Alice", "Bob", "Charlie", "David"],
            "age": [25, 30, 35, -1], # 包含错误数据
            "signup_date": ["2023-01-01", "2023-02-15", "2023-03-20", "2023-04-01"],
        }
        df = pd.DataFrame(data)
        return df
    else:
        return pd.DataFrame()

def transform_data(df: pd.DataFrame) -> pd.DataFrame:
    # 数据转换
    df["age"] = df["age"].clip(0, 120) # 将年龄限制在 0 到 120 之间
    return df

def load_data(df: pd.DataFrame, target: str):
    # 加载数据到目标系统
    # 这里只是一个示例，实际情况可能需要连接数据库、写入文件等
    print(f"Loading data to {target}...")
    print(df)

# ETL 流程
source = "source1"
target = "database"

# 创建一个 Great Expectations 上下文
context = gx.get_context()

# 获取数据源
datasource = context.datasources["my_pandas_datasource"]

# 提取数据
df = extract_data(source)

# 创建一个 BatchRequest
batch_request = datasource.build_batch_request(dataframe=df, batch_name="extracted_batch")

# 获取验证器
validator = context.get_validator(
    batch_request=batch_request,
    expectation_suite_name="my_user_expectations",
)

# 验证提取的数据
validation_result = validator.validate()
print("Extracted data validation result:", validation_result)

if not validation_result["success"]:
    print("Extracted data validation failed!")
    # 可以选择停止流程或进行数据清洗
    df = df[df["age"] > 0] # 清洗数据，移除错误数据

# 转换数据
df = transform_data(df)

# 创建一个 BatchRequest
batch_request = datasource.build_batch_request(dataframe=df, batch_name="transformed_batch")

# 获取验证器
validator = context.get_validator(
    batch_request=batch_request,
    expectation_suite_name="my_user_expectations",
)

# 验证转换后的数据
validation_result = validator.validate()
print("Transformed data validation result:", validation_result)

if not validation_result["success"]:
    print("Transformed data validation failed!")

# 加载数据
load_data(df, target)

四、Pandera 与 Great Expectations 的比较

Pandera 和 Great Expectations 都是用于数据验证和质量保证的强大工具，但它们的设计理念和适用场景有所不同。

特性	Pandera	Great Expectations
核心概念	Schema	Expectation
验证对象	Pandas DataFrame	各种数据源 (Pandas, Spark, SQL 等)
定义方式	Python 代码	Python 代码或交互式工具
集成方式	代码集成	代码集成或命令行工具
侧重点	Schema 验证，类型检查，数据结构约束	数据质量保证，期望验证，数据剖析，生成报告
适用场景	需要对 DataFrame 进行严格的 schema 验证	需要对各种数据源进行数据质量保证，并生成详细的报告
学习曲线	相对简单	相对复杂

选择哪个工具取决于你的具体需求。

如果你的主要需求是对 Pandas DataFrame 进行严格的 schema 验证，并且希望以代码的方式定义验证规则，那么 Pandera 可能更适合你。
如果你的需求是对各种数据源进行数据质量保证，并且希望生成详细的报告和 Data Docs，那么 Great Expectations 可能更适合你。

在实际应用中，你也可以将 Pandera 和 Great Expectations 结合使用。例如，你可以使用 Pandera 来进行基本的 schema 验证，然后使用 Great Expectations 来进行更高级的数据质量保证。

五、最佳实践与注意事项

尽早开始数据验证: 越早发现数据质量问题，修复的成本就越低。
定义清晰的数据质量目标: 明确你需要验证哪些数据属性，并制定相应的期望或 schema。
自动化数据验证流程: 将数据验证集成到你的 ETL 流程中，并使用自动化工具来定期验证数据。
监控数据质量指标: 追踪数据质量指标的变化，并及时采取措施来解决问题。
持续改进数据质量: 根据实际情况，不断调整你的数据质量目标和验证规则。
保持期望套件的更新： 随着数据变化，定期更新 Great Expectations 的期望套件。
灵活处理验证失败： 验证失败时，选择合适的处理方式，例如停止流程、记录日志、进行数据清洗等。
关注性能： 大规模数据验证可能会影响性能，需要进行优化。

六、构建高质量数据管道的关键

通过 Pandera 和 Great Expectations，我们可以有效地进行数据验证和质量保证，从而构建高质量的数据管道。选择合适的工具，并将其集成到 ETL 流程中，可以帮助我们及时发现和解决数据质量问题，提高数据的可靠性，最终提升业务价值。
数据质量的提升是一个持续的过程，需要我们不断地学习和实践。希望今天的分享能够帮助大家更好地理解数据验证和质量保证的重要性，并在实际工作中应用这些工具和技术。

数据验证是保障数据质量的关键步骤，Pandera 和 Great Expectations 提供了不同的方法来实现这一目标。选择合适的工具并将其集成到 ETL 流程中，可以帮助我们构建更可靠的数据管道。