如何利用`SUM()`与`GROUP BY`实现复杂的数据聚合与统计？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

利用`SUM()`与`GROUP BY`实现复杂的数据聚合与统计

大家好，今天我们来深入探讨SQL中SUM()函数与GROUP BY子句的强大组合，讲解如何利用它们进行复杂的数据聚合与统计分析。SUM()用于计算数值列的总和，而GROUP BY则用于将数据行分组，以便我们可以对每个组进行聚合计算。将两者结合使用，可以应对各种各样的数据分析需求。

1. SUM()函数基础

SUM()函数接受一个数值类型的列作为参数，并返回该列中所有值的总和。如果列中包含NULL值，SUM()函数会忽略这些NULL值。

例如，假设我们有一个名为orders的表，包含以下列：

order_id: 订单ID (INT)
customer_id: 客户ID (INT)
order_date: 订单日期 (DATE)
amount: 订单金额 (DECIMAL)

CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE,
    amount DECIMAL(10, 2)
);

INSERT INTO orders (order_id, customer_id, order_date, amount) VALUES
(1, 101, '2023-01-15', 100.00),
(2, 102, '2023-01-20', 150.00),
(3, 101, '2023-02-10', 200.00),
(4, 103, '2023-02-25', 120.00),
(5, 102, '2023-03-05', 180.00),
(6, 101, '2023-03-12', 250.00),
(7, 104, '2023-03-20', 90.00),
(8, 102, '2023-04-01', 160.00),
(9, 103, '2023-04-15', 130.00),
(10, 101, '2023-04-22', 220.00);

要计算所有订单的总金额，可以使用以下SQL查询：

SELECT SUM(amount) AS total_amount
FROM orders;

这将返回一个名为total_amount的列，其中包含所有订单金额的总和。

2. GROUP BY子句基础

GROUP BY子句用于将数据行按照一个或多个列的值进行分组。它通常与聚合函数（如SUM(), AVG(), COUNT(), MIN(), MAX()）一起使用，以便对每个组进行统计计算。

例如，要计算每个客户的总订单金额，可以使用以下SQL查询：

SELECT customer_id, SUM(amount) AS total_amount
FROM orders
GROUP BY customer_id;

这将返回一个结果集，其中包含每个客户的ID和对应的总订单金额。结果集会按照customer_id进行分组，SUM(amount)函数将计算每个customer_id分组内的amount总和。

3. SUM()与GROUP BY的结合使用

现在，我们来探讨SUM()与GROUP BY的结合使用，以实现更复杂的数据聚合与统计。

按日期分组统计订单总额

要按日期统计订单总额，可以使用以下查询：

SELECT order_date, SUM(amount) AS daily_total_amount
FROM orders
GROUP BY order_date
ORDER BY order_date;

这将返回每天的订单总金额，并按日期排序。

按月分组统计订单总额

要按月统计订单总额，可以使用DATE_TRUNC函数（PostgreSQL）或类似的函数（如DATEPART在SQL Server中，MONTH在MySQL中）来提取月份信息：

-- PostgreSQL
SELECT DATE_TRUNC('month', order_date) AS order_month, SUM(amount) AS monthly_total_amount
FROM orders
GROUP BY DATE_TRUNC('month', order_date)
ORDER BY order_month;

-- MySQL
SELECT DATE_FORMAT(order_date, '%Y-%m') AS order_month, SUM(amount) AS monthly_total_amount
FROM orders
GROUP BY DATE_FORMAT(order_date, '%Y-%m')
ORDER BY order_month;

-- SQL Server
SELECT DATEPART(year, order_date) AS order_year, DATEPART(month, order_date) AS order_month, SUM(amount) AS monthly_total_amount
FROM orders
GROUP BY DATEPART(year, order_date), DATEPART(month, order_date)
ORDER BY order_year, order_month;

这些查询将返回每个月的订单总金额，并按月份排序。注意不同数据库的日期处理函数可能有所不同。

按客户和月份分组统计订单总额

要按客户和月份统计订单总额，可以将customer_id和月份信息都添加到GROUP BY子句中：

-- PostgreSQL
SELECT customer_id, DATE_TRUNC('month', order_date) AS order_month, SUM(amount) AS monthly_total_amount
FROM orders
GROUP BY customer_id, DATE_TRUNC('month', order_date)
ORDER BY customer_id, order_month;

-- MySQL
SELECT customer_id, DATE_FORMAT(order_date, '%Y-%m') AS order_month, SUM(amount) AS monthly_total_amount
FROM orders
GROUP BY customer_id, DATE_FORMAT(order_date, '%Y-%m')
ORDER BY customer_id, order_month;

-- SQL Server
SELECT customer_id, DATEPART(year, order_date) AS order_year, DATEPART(month, order_date) AS order_month, SUM(amount) AS monthly_total_amount
FROM orders
GROUP BY customer_id, DATEPART(year, order_date), DATEPART(month, order_date)
ORDER BY customer_id, order_year, order_month;

这将返回每个客户在每个月的订单总金额，并按客户和月份排序。

使用HAVING子句过滤分组结果

HAVING子句用于过滤GROUP BY子句分组后的结果。它类似于WHERE子句，但WHERE子句用于过滤原始数据行，而HAVING子句用于过滤分组后的数据。

例如，要查找总订单金额超过500的客户，可以使用以下查询：

SELECT customer_id, SUM(amount) AS total_amount
FROM orders
GROUP BY customer_id
HAVING SUM(amount) > 500;

这将返回总订单金额超过500的客户的ID和总订单金额。

使用CASE语句进行条件聚合

CASE语句可以用于在SUM()函数内部进行条件判断，从而实现更灵活的聚合统计。

例如，假设我们想要统计订单金额大于等于150和小于150的订单数量和总金额：

SELECT
    SUM(CASE WHEN amount >= 150 THEN 1 ELSE 0 END) AS large_order_count,
    SUM(CASE WHEN amount >= 150 THEN amount ELSE 0 END) AS large_order_total,
    SUM(CASE WHEN amount < 150 THEN 1 ELSE 0 END) AS small_order_count,
    SUM(CASE WHEN amount < 150 THEN amount ELSE 0 END) AS small_order_total
FROM orders;

这个查询将返回大于等于150的订单数量、大于等于150的订单总金额、小于150的订单数量和小于150的订单总金额。

多表连接与聚合

SUM()和GROUP BY也可以与多表连接一起使用，以实现更复杂的数据分析。

假设我们有一个名为customers的表，包含以下列：

customer_id: 客户ID (INT)
customer_name: 客户姓名 (VARCHAR)

CREATE TABLE customers (
    customer_id INT PRIMARY KEY,
    customer_name VARCHAR(255)
);

INSERT INTO customers (customer_id, customer_name) VALUES
(101, 'Alice'),
(102, 'Bob'),
(103, 'Charlie'),
(104, 'David');

要计算每个客户的订单总金额，并显示客户姓名，可以使用以下查询：

SELECT c.customer_name, SUM(o.amount) AS total_amount
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
GROUP BY c.customer_name;

这将返回每个客户的姓名和对应的订单总金额。

4. 高级应用：滚动总和（Running Total）

滚动总和是指随着时间的推移，累计计算的总和。可以使用窗口函数来实现滚动总和。

SELECT
    order_date,
    amount,
    SUM(amount) OVER (ORDER BY order_date) AS running_total
FROM orders
ORDER BY order_date;

SUM(amount) OVER (ORDER BY order_date) 计算了按照order_date排序的累积订单金额。 OVER() 子句定义了窗口，ORDER BY 子句指定了窗口内的排序方式。

5. 应对NULL值

当SUM()函数遇到NULL值时，会忽略它们。如果希望将NULL值视为0，可以使用COALESCE()函数：

SELECT SUM(COALESCE(amount, 0)) AS total_amount
FROM orders;

COALESCE(amount, 0) 将amount列中的NULL值替换为0，然后再进行求和。

6. 实际案例分析

假设我们是一家电商公司，需要分析过去一年的销售数据。

问题1：统计每个产品的总销售额

假设我们有一个products表和一个order_items表，products表包含产品信息，order_items表包含订单项信息。

CREATE TABLE products (
    product_id INT PRIMARY KEY,
    product_name VARCHAR(255),
    price DECIMAL(10, 2)
);

CREATE TABLE order_items (
    order_item_id INT PRIMARY KEY,
    order_id INT,
    product_id INT,
    quantity INT
);

INSERT INTO products (product_id, product_name, price) VALUES
(1, 'Product A', 20.00),
(2, 'Product B', 30.00),
(3, 'Product C', 40.00);

INSERT INTO order_items (order_item_id, order_id, product_id, quantity) VALUES
(1, 1, 1, 2),
(2, 1, 2, 1),
(3, 2, 1, 3),
(4, 2, 3, 1);

可以使用以下查询来统计每个产品的总销售额：

SELECT
    p.product_name,
    SUM(oi.quantity * p.price) AS total_sales
FROM products p
JOIN order_items oi ON p.product_id = oi.product_id
GROUP BY p.product_name
ORDER BY total_sales DESC;

问题2：统计每个月的新增客户数量

假设我们有一个customers表，包含客户注册日期。

-- 假设 customers 表已经存在并包含数据
SELECT
    DATE_TRUNC('month', registration_date) AS registration_month,
    COUNT(customer_id) AS new_customer_count
FROM customers
GROUP BY DATE_TRUNC('month', registration_date)
ORDER BY registration_month;

问题3：找出每个月销售额最高的客户

可以使用窗口函数和子查询来实现。

WITH MonthlySales AS (
    SELECT
        c.customer_id,
        c.customer_name,
        DATE_TRUNC('month', o.order_date) AS order_month,
        SUM(o.amount) AS monthly_sales,
        ROW_NUMBER() OVER (PARTITION BY DATE_TRUNC('month', o.order_date) ORDER BY SUM(o.amount) DESC) AS rn
    FROM customers c
    JOIN orders o ON c.customer_id = o.customer_id
    GROUP BY c.customer_id, c.customer_name, DATE_TRUNC('month', o.order_date)
)
SELECT
    customer_id,
    customer_name,
    order_month,
    monthly_sales
FROM MonthlySales
WHERE rn = 1
ORDER BY order_month;

这个查询首先计算每个客户在每个月的销售额，然后使用ROW_NUMBER()函数为每个月内的客户销售额进行排名，最后筛选出每个月排名第一的客户。

7. 性能优化

当处理大量数据时，SUM()和GROUP BY查询可能会比较慢。以下是一些性能优化技巧：

索引: 确保在GROUP BY子句中使用的列上有索引。索引可以加速分组操作。
避免不必要的列: 只选择查询中需要的列。避免选择所有列（SELECT *），因为它会增加IO开销。
使用WHERE子句过滤数据: 在GROUP BY之前，使用WHERE子句过滤掉不需要的数据，可以减少需要处理的数据量。
查询优化器: 利用数据库的查询优化器。大多数数据库会自动优化查询，但可以手动分析查询计划，并根据需要进行调整。
物化视图: 对于经常使用的聚合查询，可以考虑创建物化视图。物化视图是预先计算好的结果集，可以显著提高查询速度。

8. 总结一下

SUM()和GROUP BY是SQL中进行数据聚合和统计分析的强大工具。掌握它们的用法，可以帮助我们从数据中提取有价值的信息，从而做出更明智的决策。通过对数据进行分组、条件判断和多表连接，可以满足各种复杂的数据分析需求，并且通过适当的索引和优化策略，可以提升查询性能。

利用SUM()与GROUP BY实现复杂的数据聚合与统计

发表回复 取消回复

利用`SUM()`与`GROUP BY`实现复杂的数据聚合与统计

发表回复取消回复