如何利用MySQL的窗口函数（Window Functions）实现复杂的OLAP操作，如移动平均与排名？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL窗口函数实现复杂OLAP操作：移动平均与排名

大家好，今天我们要深入探讨MySQL窗口函数在复杂OLAP（Online Analytical Processing）操作中的应用，重点关注移动平均和排名。窗口函数是SQL中一项强大的功能，它允许我们在数据集的特定窗口（一组相关的行）上执行计算，而无需使用复杂的自连接或子查询。这使得OLAP分析更加高效和易于理解。

1. 窗口函数的基础概念

在深入移动平均和排名之前，我们先回顾一下窗口函数的基本语法结构和核心概念。

窗口函数的基本语法如下：

function_name(arguments) OVER (
  [PARTITION BY column1, column2, ...]
  [ORDER BY column3 ASC|DESC, column4 ASC|DESC, ...]
  [frame_clause]
)

function_name(arguments): 这是要执行的聚合函数或窗口函数，例如AVG(), SUM(), RANK(), ROW_NUMBER()等。
OVER(): 这是窗口函数的关键部分，定义了窗口的范围。
PARTITION BY column1, column2, ...: 将数据集分成多个分区。窗口函数将在每个分区内独立计算。如果没有PARTITION BY子句，则整个数据集被视为一个分区。
ORDER BY column3 ASC|DESC, column4 ASC|DESC, ...: 定义每个分区内行的排序方式。窗口函数将按照指定的顺序计算。 ORDER BY子句对于某些窗口函数（如排名和移动平均）至关重要。
frame_clause: 定义当前行的窗口范围。它基于ORDER BY子句指定的排序方式。常用的frame_clause包括：
- ROWS BETWEEN start AND end: 基于行的偏移量定义窗口范围。
- RANGE BETWEEN start AND end: 基于排序值的范围定义窗口范围。

常见的 start 和 end 值包括：

UNBOUNDED PRECEDING: 窗口从分区的第一行开始。
UNBOUNDED FOLLOWING: 窗口到分区的最后一行结束。
CURRENT ROW: 当前行。
n PRECEDING: 当前行之前的n行。
n FOLLOWING: 当前行之后的n行。

2. 移动平均的实现

移动平均是一种常用的时间序列分析方法，用于平滑数据并识别趋势。它计算指定窗口内数据的平均值，并将该平均值作为当前数据点的值。

2.1 简单移动平均（SMA）

简单移动平均计算指定窗口内所有值的平均值。让我们用一个例子来说明：

假设我们有一个销售数据表 sales，包含以下字段：

sale_date: 销售日期 (DATE)
product_id: 产品ID (INT)
sale_amount: 销售额 (DECIMAL)

我们想要计算每个产品的 3 天移动平均销售额。可以使用以下SQL查询：

SELECT
    sale_date,
    product_id,
    sale_amount,
    AVG(sale_amount) OVER (
        PARTITION BY product_id
        ORDER BY sale_date
        ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
    ) AS moving_average_3_days
FROM
    sales
ORDER BY
    product_id,
    sale_date;

这个查询做了以下事情：

PARTITION BY product_id: 将数据按产品ID分区，每个产品独立计算移动平均。
ORDER BY sale_date: 按销售日期排序每个分区。
ROWS BETWEEN 2 PRECEDING AND CURRENT ROW: 定义窗口范围为当前行和之前2行（总共3行）。
AVG(sale_amount): 计算窗口内销售额的平均值。

示例数据:

sale_date	product_id	sale_amount
2023-01-01	1	100
2023-01-02	1	120
2023-01-03	1	150
2023-01-04	1	130
2023-01-05	1	160
2023-01-01	2	80
2023-01-02	2	90
2023-01-03	2	100
2023-01-04	2	110

查询结果:

sale_date	product_id	sale_amount	moving_average_3_days
2023-01-01	1	100	100.00
2023-01-02	1	120	110.00
2023-01-03	1	150	123.33
2023-01-04	1	130	133.33
2023-01-05	1	160	146.67
2023-01-01	2	80	80.00
2023-01-02	2	90	85.00
2023-01-03	2	100	90.00
2023-01-04	2	110	100.00

2.2 加权移动平均（WMA）

加权移动平均对窗口内的值赋予不同的权重，通常最近的值权重更高。这使得加权移动平均对最新数据的变化更敏感。

假设我们想要计算每个产品的 3 天加权移动平均销售额，权重分别为 3 (最近一天), 2, 1 (最早一天)。由于MySQL没有直接支持加权平均的窗口函数，我们需要使用一些技巧来实现。

SELECT
    sale_date,
    product_id,
    sale_amount,
    (
        sale_amount * 3 +
        LAG(sale_amount, 1, 0) OVER (PARTITION BY product_id ORDER BY sale_date) * 2 +
        LAG(sale_amount, 2, 0) OVER (PARTITION BY product_id ORDER BY sale_date) * 1
    ) / (3 + 2 + 1) AS weighted_moving_average_3_days
FROM
    sales
ORDER BY
    product_id,
    sale_date;

这个查询使用了 LAG() 函数来获取前一行的销售额。

LAG(sale_amount, 1, 0) OVER (PARTITION BY product_id ORDER BY sale_date): 获取前一天的销售额。如果前一天不存在 (例如，第一天)，则返回0。
LAG(sale_amount, 2, 0) OVER (PARTITION BY product_id ORDER BY sale_date): 获取前两天的销售额。如果前两天不存在，则返回0。
然后，我们将每一天的销售额乘以相应的权重，并除以总权重 (3 + 2 + 1 = 6)。

示例数据 (与上例相同):

sale_date	product_id	sale_amount
2023-01-01	1	100
2023-01-02	1	120
2023-01-03	1	150
2023-01-04	1	130
2023-01-05	1	160
2023-01-01	2	80
2023-01-02	2	90
2023-01-03	2	100
2023-01-04	2	110

查询结果:

sale_date	product_id	sale_amount	weighted_moving_average_3_days
2023-01-01	1	100	50.00
2023-01-02	1	120	73.33
2023-01-03	1	150	115.00
2023-01-04	1	130	131.67
2023-01-05	1	160	148.33
2023-01-01	2	80	40.00
2023-01-02	2	90	56.67
2023-01-03	2	100	76.67
2023-01-04	2	110	95.00

注意事项:

LAG() 函数的第三个参数是默认值，用于处理窗口开始处没有足够行的情况。
对于更长的窗口，可以使用多个 LAG() 函数，并相应地调整权重。
这种方式对于计算更复杂的加权移动平均可能会变得冗长。在这种情况下，可以考虑使用存储过程或用户自定义函数来简化查询。

3. 排名的实现

窗口函数提供了多种排名函数，可以根据指定的排序方式对数据集进行排名。

3.1 `ROW_NUMBER()`

ROW_NUMBER() 函数为每个分区中的每一行分配一个唯一的序号，从1开始。

假设我们想要根据销售额对每个产品进行排名。

SELECT
    sale_date,
    product_id,
    sale_amount,
    ROW_NUMBER() OVER (PARTITION BY product_id ORDER BY sale_amount DESC) AS sale_rank
FROM
    sales
ORDER BY
    product_id,
    sale_rank;

这个查询做了以下事情：

PARTITION BY product_id: 将数据按产品ID分区。
ORDER BY sale_amount DESC: 按销售额降序排序每个分区。
ROW_NUMBER(): 为每个分区中的每一行分配一个唯一的序号。

示例数据:

sale_date	product_id	sale_amount
2023-01-01	1	100
2023-01-02	1	120
2023-01-03	1	150
2023-01-04	1	130
2023-01-05	1	150
2023-01-01	2	80
2023-01-02	2	90
2023-01-03	2	100
2023-01-04	2	110

查询结果:

sale_date	product_id	sale_amount	sale_rank
2023-01-03	1	150	1
2023-01-05	1	150	2
2023-01-04	1	130	3
2023-01-02	1	120	4
2023-01-01	1	100	5
2023-01-04	2	110	1
2023-01-03	2	100	2
2023-01-02	2	90	3
2023-01-01	2	80	4

请注意，即使 product_id = 1 的 2023-01-03 和 2023-01-05 的 sale_amount 相同，它们仍然被分配了不同的排名（1和2）。

3.2 `RANK()`

RANK() 函数为每个分区中的每一行分配一个排名，如果存在相同的排序值，则排名相同，并且跳过后续的排名。

SELECT
    sale_date,
    product_id,
    sale_amount,
    RANK() OVER (PARTITION BY product_id ORDER BY sale_amount DESC) AS sale_rank
FROM
    sales
ORDER BY
    product_id,
    sale_rank;

示例数据 (与上例相同):

sale_date	product_id	sale_amount
2023-01-01	1	100
2023-01-02	1	120
2023-01-03	1	150
2023-01-04	1	130
2023-01-05	1	150
2023-01-01	2	80
2023-01-02	2	90
2023-01-03	2	100
2023-01-04	2	110

查询结果:

sale_date	product_id	sale_amount	sale_rank
2023-01-03	1	150	1
2023-01-05	1	150	1
2023-01-04	1	130	3
2023-01-02	1	120	4
2023-01-01	1	100	5
2023-01-04	2	110	1
2023-01-03	2	100	2
2023-01-02	2	90	3
2023-01-01	2	80	4

请注意，product_id = 1 的 2023-01-03 和 2023-01-05 的 sale_amount 相同，因此它们都被分配了相同的排名 (1)。下一个排名是 3，跳过了 2。

3.3 `DENSE_RANK()`

DENSE_RANK() 函数与 RANK() 函数类似，但它不会跳过排名。即使存在相同的排序值，下一个排名仍然是连续的。

SELECT
    sale_date,
    product_id,
    sale_amount,
    DENSE_RANK() OVER (PARTITION BY product_id ORDER BY sale_amount DESC) AS sale_rank
FROM
    sales
ORDER BY
    product_id,
    sale_rank;

示例数据 (与上例相同):

sale_date	product_id	sale_amount
2023-01-01	1	100
2023-01-02	1	120
2023-01-03	1	150
2023-01-04	1	130
2023-01-05	1	150
2023-01-01	2	80
2023-01-02	2	90
2023-01-03	2	100
2023-01-04	2	110

查询结果:

sale_date	product_id	sale_amount	sale_rank
2023-01-03	1	150	1
2023-01-05	1	150	1
2023-01-04	1	130	2
2023-01-02	1	120	3
2023-01-01	1	100	4
2023-01-04	2	110	1
2023-01-03	2	100	2
2023-01-02	2	90	3
2023-01-01	2	80	4

请注意，product_id = 1 的 2023-01-03 和 2023-01-05 的 sale_amount 相同，因此它们都被分配了相同的排名 (1)。下一个排名是 2，没有跳过任何排名。

3.4 `NTILE(n)`

NTILE(n) 函数将每个分区中的行分成 n 组，并为每行分配一个组号。这对于将数据分成百分位数或十分位数非常有用。

假设我们想要将每个产品的销售额分成 4 组（四分位数）。

SELECT
    sale_date,
    product_id,
    sale_amount,
    NTILE(4) OVER (PARTITION BY product_id ORDER BY sale_amount DESC) AS quartile
FROM
    sales
ORDER BY
    product_id,
    sale_amount DESC;

示例数据 (与上例相同):

sale_date	product_id	sale_amount
2023-01-01	1	100
2023-01-02	1	120
2023-01-03	1	150
2023-01-04	1	130
2023-01-05	1	150
2023-01-01	2	80
2023-01-02	2	90
2023-01-03	2	100
2023-01-04	2	110

查询结果:

sale_date	product_id	sale_amount	quartile
2023-01-03	1	150	1
2023-01-05	1	150	1
2023-01-04	1	130	2
2023-01-02	1	120	3
2023-01-01	1	100	4
2023-01-04	2	110	1
2023-01-03	2	100	2
2023-01-02	2	90	3
2023-01-01	2	80	4

4. 窗口函数与聚合函数的结合

窗口函数可以与聚合函数结合使用，以执行更复杂的分析。例如，我们可以计算每个产品的销售额占总销售额的百分比。

SELECT
    sale_date,
    product_id,
    sale_amount,
    sale_amount / SUM(sale_amount) OVER (PARTITION BY sale_date) AS sales_percentage
FROM
    sales
ORDER BY
    sale_date,
    product_id;

这个查询做了以下事情：

PARTITION BY sale_date: 将数据按销售日期分区。
SUM(sale_amount) OVER (PARTITION BY sale_date): 计算每个销售日期的总销售额。
sale_amount / SUM(sale_amount) OVER (PARTITION BY sale_date): 计算每个产品的销售额占当天总销售额的百分比。

5. 实际案例：用户行为分析

假设我们有一个用户行为日志表 user_activity，包含以下字段：

user_id: 用户ID (INT)
activity_date: 活动日期 (DATE)
activity_type: 活动类型 (VARCHAR, 例如 ‘login’, ‘purchase’, ‘view_product’)

我们可以使用窗口函数来分析用户行为模式。

5.1 计算每个用户的首次活动日期

SELECT
    user_id,
    MIN(activity_date) OVER (PARTITION BY user_id) AS first_activity_date
FROM
    user_activity
GROUP BY user_id; --  需要GROUP BY, 因为MIN是聚合函数，必须和GROUP BY 一起使用

5.2 计算每个用户每天的累计活动次数

SELECT
    user_id,
    activity_date,
    COUNT(*) AS daily_activity_count,
    SUM(COUNT(*)) OVER (PARTITION BY user_id ORDER BY activity_date) AS cumulative_activity_count
FROM
    user_activity
GROUP BY
    user_id,
    activity_date
ORDER BY
    user_id,
    activity_date;

5.3 计算每个用户最近一次购买距离当前日期的天数

SELECT
    user_id,
    activity_date,
    DATEDIFF(CURDATE(), activity_date) AS days_since_last_purchase
FROM (
    SELECT
        user_id,
        MAX(activity_date) OVER (PARTITION BY user_id) AS activity_date
    FROM
        user_activity
    WHERE
        activity_type = 'purchase'
) AS subquery
GROUP BY user_id;

6. 性能考量

虽然窗口函数功能强大，但在处理大型数据集时，性能可能成为一个问题。以下是一些性能优化的建议：

索引: 确保在 PARTITION BY 和 ORDER BY 子句中使用的列上创建了索引。
数据类型: 使用合适的数据类型。较小的数据类型可以减少内存使用并提高性能。
避免不必要的计算: 只计算需要的窗口。避免在不需要的窗口上执行计算。
查询优化器: 利用MySQL的查询优化器。使用 EXPLAIN 命令来分析查询执行计划，并根据需要进行优化。

7. 总结：窗口函数的强大之处

MySQL窗口函数提供了一种高效且易于理解的方式来执行复杂的OLAP操作，例如移动平均和排名。它们允许我们在数据集的特定窗口上执行计算，而无需使用复杂的自连接或子查询。通过合理地使用窗口函数，可以极大地简化SQL查询并提高分析效率。窗口函数是SQL武器库中不可或缺的一部分，掌握它们对于进行高级数据分析至关重要。掌握这些方法可以帮助我们更深入地理解数据，发现隐藏的模式和趋势，从而做出更明智的决策。

MySQL窗口函数实现复杂OLAP操作：移动平均与排名

1. 窗口函数的基础概念

2. 移动平均的实现

2.1 简单移动平均（SMA）

2.2 加权移动平均（WMA）

3. 排名的实现

3.1 ROW_NUMBER()

3.2 RANK()

3.3 DENSE_RANK()

3.4 NTILE(n)

4. 窗口函数与聚合函数的结合

5. 实际案例：用户行为分析

5.1 计算每个用户的首次活动日期

5.2 计算每个用户每天的累计活动次数

5.3 计算每个用户最近一次购买距离当前日期的天数

6. 性能考量

7. 总结：窗口函数的强大之处

发表回复 取消回复

3.1 `ROW_NUMBER()`

3.2 `RANK()`

3.3 `DENSE_RANK()`

3.4 `NTILE(n)`

发表回复取消回复