MySQL编程进阶之：`HAVING`子句的用法与优化：如何在分组后过滤数据。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷，晚上好！我是你们的老朋友，今天咱们来聊聊MySQL里的HAVING子句，这玩意儿就像是WHERE的升级版，专门用来在分组之后过滤数据。说白了，就是先分组，再筛选，让你的数据分析更加精准。

一、HAVING子句：WHERE的表兄弟，但能力更强

首先，我们要明确一点，HAVING子句和WHERE子句虽然都是用来过滤数据的，但它们的应用场景完全不同。WHERE子句是在分组之前过滤数据，而HAVING子句是在分组之后过滤数据。

你可以把WHERE想象成一个保安，负责在数据进入房间之前进行检查，不符合条件的一律不让进。而HAVING就像是一个审查委员会，负责在房间里的人都到齐了之后，再对他们的资格进行审查，不符合条件的就踢出去。

举个例子，假设我们有一个orders表，记录了客户的订单信息：

order_id	customer_id	order_date	total_amount
1	101	2023-01-01	100
2	102	2023-01-05	200
3	101	2023-01-10	150
4	103	2023-01-15	300
5	102	2023-01-20	250
6	101	2023-01-25	120
7	103	2023-01-30	350
8	104	2023-02-05	400
9	102	2023-02-10	180
10	104	2023-02-15	220

如果我们想找出消费总额超过500的客户，就不能用WHERE子句，因为WHERE子句只能过滤单个订单，而不能过滤客户的总消费额。这时候，就需要用到HAVING子句了。

二、HAVING子句的基本语法

HAVING子句通常与GROUP BY子句一起使用，它的基本语法如下：

SELECT column1, column2, ...
FROM table_name
WHERE condition
GROUP BY column1, column2, ...
HAVING condition;

这里的condition可以是任何合法的SQL表达式，包括聚合函数，例如SUM(), AVG(), COUNT(), MIN(), MAX()等等。

三、HAVING子句的实战演练

接下来，我们通过几个实例来演示HAVING子句的用法。

例1：找出消费总额超过500的客户

SELECT customer_id, SUM(total_amount) AS total_spent
FROM orders
GROUP BY customer_id
HAVING SUM(total_amount) > 500;

这条SQL语句的执行流程是这样的：

FROM orders: 从orders表读取数据。
GROUP BY customer_id: 按照customer_id进行分组，将同一个客户的订单归为一组。
SUM(total_amount) AS total_spent: 对每个客户的订单总额进行求和，并将结果命名为total_spent。
HAVING SUM(total_amount) > 500: 过滤掉总消费额小于等于500的客户。

执行结果如下：

customer_id	total_spent
102	630
103	650
104	620

例2：找出订单数量超过2的客户

SELECT customer_id, COUNT(*) AS order_count
FROM orders
GROUP BY customer_id
HAVING COUNT(*) > 2;

这条SQL语句的执行流程与例1类似，只不过这次我们用COUNT(*)来统计每个客户的订单数量。

执行结果如下：

customer_id	order_count
101	3
102	3

例3：找出平均订单金额超过200的客户

SELECT customer_id, AVG(total_amount) AS avg_order_amount
FROM orders
GROUP BY customer_id
HAVING AVG(total_amount) > 200;

这条SQL语句的执行流程也类似，这次我们用AVG(total_amount)来计算每个客户的平均订单金额。

执行结果如下：

customer_id	avg_order_amount
103	325.0000
104	310.0000

四、HAVING子句的优化技巧

虽然HAVING子句功能强大，但如果使用不当，也会影响查询性能。下面是一些HAVING子句的优化技巧：

尽量使用WHERE子句过滤数据

如果可以在分组之前过滤掉一部分数据，就尽量使用WHERE子句。这样可以减少GROUP BY子句需要处理的数据量，从而提高查询效率。

例如，如果我们只想找出2023年1月份消费总额超过500的客户，可以这样写：
```
SELECT customer_id, SUM(total_amount) AS total_spent
FROM orders
WHERE order_date BETWEEN '2023-01-01' AND '2023-01-31'
GROUP BY customer_id
HAVING SUM(total_amount) > 500;
```
这样，WHERE子句会先过滤掉2月份的订单，然后再进行分组和聚合，从而减少了GROUP BY子句需要处理的数据量。
避免在HAVING子句中使用复杂的表达式

HAVING子句中的表达式越简单，查询效率就越高。尽量避免在HAVING子句中使用复杂的计算或函数调用。

例如，如果我们要找出消费总额超过平均消费总额的客户，可以先计算出平均消费总额，然后再在HAVING子句中使用这个值：
```
SET @avg_total_spent = (SELECT AVG(total_amount) FROM orders);

SELECT customer_id, SUM(total_amount) AS total_spent
FROM orders
GROUP BY customer_id
HAVING SUM(total_amount) > @avg_total_spent;
```
这样，我们只需要计算一次平均消费总额，然后在HAVING子句中直接使用这个值，避免了重复计算。
利用索引优化GROUP BY和HAVING子句

如果GROUP BY子句和HAVING子句中使用的列都有索引，MySQL就可以利用索引来加速分组和过滤操作。

例如，如果orders表的customer_id列有索引，那么上面的例1就可以利用索引来加速分组操作。

为了确保MySQL能够使用索引，需要注意以下几点：
- 确保索引列的数据类型与GROUP BY和HAVING子句中使用的表达式的数据类型一致。
- 避免在索引列上使用函数或表达式。
- 尽量使用前缀索引。
考虑使用临时表

对于复杂的查询，可以考虑使用临时表来存储中间结果，然后再对临时表进行分组和过滤。

例如，如果我们要找出消费总额超过500且订单数量超过2的客户，可以先创建一个临时表，存储每个客户的消费总额和订单数量，然后再对临时表进行过滤：
```
CREATE TEMPORARY TABLE customer_summary AS
SELECT customer_id, SUM(total_amount) AS total_spent, COUNT(*) AS order_count
FROM orders
GROUP BY customer_id;

SELECT customer_id, total_spent, order_count
FROM customer_summary
WHERE total_spent > 500 AND order_count > 2;

DROP TEMPORARY TABLE IF EXISTS customer_summary;
```
使用临时表可以简化查询逻辑，提高查询效率。但需要注意的是，临时表会占用额外的存储空间，因此需要根据实际情况进行选择。

五、HAVING与WHERE的混淆点：一个常见误区

很多新手容易混淆HAVING和WHERE，认为它们可以互换使用。实际上，这是错误的。

WHERE子句作用于行级别，在分组之前过滤数据。
HAVING子句作用于组级别，在分组之后过滤数据。

如果你试图在WHERE子句中使用聚合函数，MySQL会报错，因为它只能在HAVING子句中使用聚合函数。

例如，以下SQL语句是错误的：

SELECT customer_id
FROM orders
WHERE SUM(total_amount) > 500; -- 错误！不能在WHERE子句中使用聚合函数

正确的写法是：

SELECT customer_id
FROM orders
GROUP BY customer_id
HAVING SUM(total_amount) > 500;

六、HAVING子句的高级用法：结合子查询

HAVING子句还可以与子查询结合使用，实现更复杂的过滤逻辑。

例如，如果我们想找出消费总额超过所有客户平均消费总额的客户，可以这样写：

SELECT customer_id, SUM(total_amount) AS total_spent
FROM orders
GROUP BY customer_id
HAVING SUM(total_amount) > (SELECT AVG(total_amount) FROM orders);

这里的子查询(SELECT AVG(total_amount) FROM orders)计算出所有客户的平均消费总额，然后在HAVING子句中使用这个值进行过滤。

七、HAVING子句的注意事项

HAVING子句必须与GROUP BY子句一起使用，否则会报错。
HAVING子句中可以使用的列必须是GROUP BY子句中指定的列，或者是聚合函数的结果。
HAVING子句的执行顺序在GROUP BY子句之后，ORDER BY子句之前。

八、案例分析：电商平台用户行为分析

假设你是一家电商平台的数据分析师，你需要分析用户的购买行为，找出一些有价值的信息。

需求1：找出购买商品种类超过5种的用户

假设我们有一个order_items表，记录了订单中的商品信息：

order_id	product_id	quantity
1	101	1
1	102	2
2	103	1
2	104	1
2	105	1
3	101	1
3	106	1
3	107	1
3	108	1
3	109	1

我们需要先将order_items表与orders表连接起来，然后按照customer_id进行分组，统计每个客户购买的商品种类数量，最后用HAVING子句过滤掉购买商品种类小于等于5的客户。

SELECT o.customer_id, COUNT(DISTINCT oi.product_id) AS product_count
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
GROUP BY o.customer_id
HAVING COUNT(DISTINCT oi.product_id) > 5;

需求2：找出复购率超过50%的用户

复购率是指用户购买两次或两次以上的商品的比例。要计算复购率，我们需要先统计每个用户购买的商品数量，然后计算购买两次或两次以上的商品的数量，最后用HAVING子句过滤掉复购率小于等于50%的客户。

SELECT o.customer_id,
       SUM(CASE WHEN oi.quantity > 1 THEN 1 ELSE 0 END) / COUNT(DISTINCT oi.product_id) AS repurchase_rate
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
GROUP BY o.customer_id
HAVING repurchase_rate > 0.5;

九、总结

HAVING子句是MySQL中一个非常重要的子句，它可以让你在分组之后过滤数据，实现更精准的数据分析。掌握HAVING子句的用法和优化技巧，可以让你编写出更高效的SQL查询语句。

希望今天的讲解对你有所帮助。记住，熟能生巧，多练习才能真正掌握HAVING子句的精髓。下次再见！

发表回复 取消回复

发表回复取消回复