GROUP BY 与 HAVING 子句的高级用法与优化 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众，各位朋友，欢迎来到今天的“SQL魔法课堂”！我是你们的老朋友，江湖人称“SQL小王子”的程序猿阿呆。今天我们要聊点高级的，不是那种“SELECT * FROM table”级别的，而是能让你在数据库世界里耍出花儿来的——GROUP BY 与 HAVING 子句的进阶用法和优化！

准备好了吗？系好安全带，我们的SQL飞船即将起飞🚀！

第一章：`GROUP BY` 的魅力：化繁为简的艺术

GROUP BY 就像一位技艺精湛的雕塑家，能够将看似杂乱无章的数据，按照你的想法，雕琢成井然有序的艺术品。它的核心作用，就是将表中具有相同值的行，归并成一个组。

1.1 基础入门：分组的基石

最简单的GROUP BY 莫过于按单个字段分组。比如，我们有一张“销售订单”表，记录了订单ID、客户ID、商品ID和销售额：

订单ID	客户ID	商品ID	销售额
1	101	201	100
2	102	202	200
3	101	203	150
4	102	201	120
5	103	202	300

如果我们想知道每个客户的销售总额，就可以使用GROUP BY：

SELECT 客户ID, SUM(销售额) AS 总销售额
FROM 销售订单
GROUP BY 客户ID;

这条SQL语句就像一个辛勤的统计员，它会按照“客户ID”进行分组，然后对每个组的“销售额”求和。结果会是这样的：

客户ID	总销售额
101	250
102	320
103	300

是不是很简单？就像把相同颜色的积木堆在一起一样！

1.2 多字段分组：更精细的划分

GROUP BY 的真正威力在于它可以按多个字段分组，实现更精细的划分。假设我们想知道每个客户购买每种商品的销售总额：

SELECT 客户ID, 商品ID, SUM(销售额) AS 总销售额
FROM 销售订单
GROUP BY 客户ID, 商品ID;

这条SQL语句就好像一个专业的分类师，它会先按照“客户ID”分组，然后在每个“客户ID”组内，再按照“商品ID”分组。结果会更加详细：

客户ID	商品ID	总销售额
101	201	100
101	203	150
102	201	120
102	202	200
103	202	300

这样，我们就能清晰地看到每个客户对每种商品的偏好，简直是大数据分析的利器！

1.3 函数分组：更灵活的分组方式

GROUP BY 还可以结合函数使用，实现更灵活的分组方式。比如，我们想按照销售额的区间进行分组，看看每个区间的订单数量：

SELECT
    CASE
        WHEN 销售额 < 100 THEN '0-100'
        WHEN 销售额 < 200 THEN '100-200'
        ELSE '200+'
    END AS 销售额区间,
    COUNT(*) AS 订单数量
FROM 销售订单
GROUP BY
    CASE
        WHEN 销售额 < 100 THEN '0-100'
        WHEN 销售额 < 200 THEN '100-200'
        ELSE '200+'
    END;

这段代码有点长，但逻辑很简单。我们使用CASE语句将销售额划分成三个区间，然后按照这个区间进行分组。结果如下：

销售额区间	订单数量
0-100	1
100-200	2
200+	2

看到了吗？GROUP BY 可以和各种函数配合，创造出无限可能！想象一下，你可以按照日期、年龄段、地理位置等等进行分组，挖掘出各种有价值的信息，简直是数据挖掘的探险家！

第二章：`HAVING` 的魔力：筛选的艺术

GROUP BY 负责分组，而 HAVING 则负责筛选。它就像一位严格的考官，只会让符合条件的组通过。请注意，HAVING 只能用于 GROUP BY 之后，它筛选的是组，而不是单条记录。

2.1 基础入门：过滤分组后的结果

假设我们想找出销售总额超过 300 的客户，可以这样写：

SELECT 客户ID, SUM(销售额) AS 总销售额
FROM 销售订单
GROUP BY 客户ID
HAVING SUM(销售额) > 300;

这条SQL语句会先按照“客户ID”分组，计算每个客户的销售总额，然后使用 HAVING 筛选出销售总额大于 300 的客户。结果如下：

客户ID	总销售额
102	320

只有客户 102 满足条件，成功通过了 HAVING 的考验！

2.2 HAVING 与 WHERE 的区别：泾渭分明

很多初学者容易混淆 HAVING 和 WHERE。它们都是用来筛选数据的，但作用的对象不同：

WHERE 用于在分组之前筛选单条记录。
HAVING 用于在分组之后筛选组。

举个例子，如果我们想找出销售额大于 150 的订单，并且只统计这些订单的客户销售总额，应该这样写：

SELECT 客户ID, SUM(销售额) AS 总销售额
FROM 销售订单
WHERE 销售额 > 150
GROUP BY 客户ID;

WHERE 子句先筛选出销售额大于 150 的订单，然后 GROUP BY 按照客户ID分组，计算每个客户的销售总额。

如果我们想找出总销售额大于 300 的客户，并且这些客户的订单销售额都大于 100，应该这样写：

SELECT 客户ID, SUM(销售额) AS 总销售额
FROM 销售订单
WHERE 销售额 > 100
GROUP BY 客户ID
HAVING SUM(销售额) > 300;

WHERE 子句先筛选出销售额大于 100 的订单，然后 GROUP BY 按照客户ID分组，计算每个客户的销售总额，最后 HAVING 筛选出总销售额大于 300 的客户。

记住，WHERE 在 GROUP BY 之前，HAVING 在 GROUP BY 之后！它们就像两道关卡，一道筛选原始数据，一道筛选分组结果，分工明确，各司其职！

2.3 更复杂的 HAVING 条件：无限可能

HAVING 可以使用各种聚合函数和逻辑运算符，构建更复杂的筛选条件。比如，我们想找出至少购买过 2 种商品的客户：

SELECT 客户ID, COUNT(DISTINCT 商品ID) AS 商品种类数
FROM 销售订单
GROUP BY 客户ID
HAVING COUNT(DISTINCT 商品ID) >= 2;

COUNT(DISTINCT 商品ID) 用于统计每个客户购买的商品种类数，HAVING 则筛选出商品种类数大于等于 2 的客户。

再比如，我们想找出平均销售额大于 150 的客户：

SELECT 客户ID, AVG(销售额) AS 平均销售额
FROM 销售订单
GROUP BY 客户ID
HAVING AVG(销售额) > 150;

AVG(销售额) 用于计算每个客户的平均销售额，HAVING 则筛选出平均销售额大于 150 的客户。

总之，HAVING 可以让你对分组后的结果进行各种复杂的筛选，挖掘出更深层次的信息。只要你敢想，它就能帮你实现！

第三章：`GROUP BY` 与 `HAVING` 的优化：性能的飞跃

GROUP BY 和 HAVING 虽然强大，但如果使用不当，也会成为性能的瓶颈。优化它们，就像给你的SQL飞船装上更强大的引擎，让它飞得更快！

3.1 索引的妙用：加速分组

索引是提高查询速度的关键。如果 GROUP BY 子句中使用的字段有索引，数据库就可以更快地找到相同值的行，从而加速分组的过程。

比如，在“销售订单”表中，“客户ID”字段经常用于分组，那么我们就可以为它创建一个索引：

CREATE INDEX idx_客户ID ON 销售订单 (客户ID);

有了索引，数据库在执行 GROUP BY 客户ID 的查询时，就可以像查字典一样，快速找到所有相同客户ID的订单，大大提高查询效率！

3.2 避免全表扫描：缩小范围

全表扫描就像大海捞针，效率极低。尽量避免在大型表上进行全表扫描，可以显著提高查询速度。

一种方法是使用 WHERE 子句，缩小 GROUP BY 的范围。比如，我们只想统计最近一个月的客户销售额，可以这样写：

SELECT 客户ID, SUM(销售额) AS 总销售额
FROM 销售订单
WHERE 订单日期 >= DATE_SUB(CURDATE(), INTERVAL 1 MONTH)
GROUP BY 客户ID;

WHERE 子句先筛选出最近一个月的订单，然后 GROUP BY 按照客户ID分组，这样就避免了对整个表进行扫描，提高了查询效率。

3.3 预计算：提前做好功课

对于一些需要频繁查询的聚合结果，可以考虑进行预计算。比如，我们可以创建一个“客户销售总额”表，定期计算每个客户的销售总额，然后直接查询这张表，而不是每次都执行 GROUP BY 和 SUM 操作。

这种方法类似于提前做好功课，需要的时候直接拿来用，可以大大提高查询速度。当然，预计算也需要定期更新，以保证数据的准确性。

3.4 选择合适的聚合函数：事半功倍

不同的聚合函数，性能也可能不同。选择合适的聚合函数，可以提高查询效率。

比如，如果只需要判断某个组是否存在满足条件的记录，可以使用 EXISTS 函数，而不是 COUNT(*)。EXISTS 函数在找到满足条件的记录后就会立即停止，而 COUNT(*) 函数则需要统计整个组的记录数。

3.5 优化SQL语句：精益求精

SQL语句的写法也会影响性能。优化SQL语句，可以提高查询效率。

比如，尽量避免使用 SELECT *，只选择需要的字段。这样可以减少数据传输量，提高查询速度。

再比如，尽量避免在 HAVING 子句中使用复杂的表达式。可以将复杂的表达式分解成多个简单的表达式，或者使用子查询。

总之，GROUP BY 和 HAVING 的优化是一个持续改进的过程。我们需要不断学习和实践，才能找到最佳的优化方案。

第四章：实战演练：案例分析

理论讲完了，我们来几个实战案例，巩固一下所学知识。

案例一：统计每个地区的平均年龄和最高工资

假设我们有一张“员工”表，包含员工ID、姓名、年龄、工资和地区：

员工ID	姓名	年龄	工资	地区
1	张三	25	5000	北京
2	李四	30	8000	上海
3	王五	28	6000	北京
4	赵六	35	10000	深圳
5	钱七	22	4000	上海

我们可以使用以下SQL语句，统计每个地区的平均年龄和最高工资：

SELECT 地区, AVG(年龄) AS 平均年龄, MAX(工资) AS 最高工资
FROM 员工
GROUP BY 地区;

结果如下：

地区	平均年龄	最高工资
北京	26.5	6000
上海	26	8000
深圳	35	10000

案例二：找出平均工资高于 7000 的地区

在上面的基础上，我们想找出平均工资高于 7000 的地区，可以使用以下SQL语句：

SELECT 地区, AVG(年龄) AS 平均年龄, MAX(工资) AS 最高工资
FROM 员工
GROUP BY 地区
HAVING AVG(工资) > 7000;

结果如下：

地区	平均年龄	最高工资
上海	26	8000
深圳	35	10000

案例三：找出工资最高的员工所在的地区

我们可以使用子查询来实现这个需求：

SELECT 地区
FROM 员工
WHERE 工资 = (SELECT MAX(工资) FROM 员工);

这条SQL语句会先使用子查询找到工资最高的员工的工资，然后在“员工”表中找到工资等于这个值的员工所在的地区。

总结：SQL魔法的无限可能

好了，今天的“SQL魔法课堂”就到这里了。我们学习了 GROUP BY 和 HAVING 的高级用法和优化技巧。希望大家能够灵活运用这些知识，在数据库的世界里创造出更多的奇迹！

记住，SQL不仅仅是一种语言，更是一种思维方式。只要你敢于探索，勇于创新，就能发现SQL的无限可能！

最后，祝大家编程愉快，bug永不相见！🙏

第一章：GROUP BY 的魅力：化繁为简的艺术

第二章：HAVING 的魔力：筛选的艺术

第三章：GROUP BY 与 HAVING 的优化：性能的飞跃

第四章：实战演练：案例分析

总结：SQL魔法的无限可能

发表回复 取消回复

第一章：`GROUP BY` 的魅力：化繁为简的艺术

第二章：`HAVING` 的魔力：筛选的艺术

第三章：`GROUP BY` 与 `HAVING` 的优化：性能的飞跃

发表回复取消回复