MySQL编程进阶之：`EXISTS`与`IN`的优化：如何选择更高效的子查询操作符。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

大家好，我是今天的主讲人，很高兴能和大家一起聊聊MySQL里EXISTS和IN这两个家伙，以及咱们该如何选择它们，让你的SQL跑得更快。

咱们今天的主题是：MySQL编程进阶之：EXISTS与IN的优化：如何选择更高效的子查询操作符。

先声明一点，没有哪个操作符是万能的，能秒杀一切场景。选择哪个，主要看你的数据和你的SQL怎么写的。咱们得具体问题具体分析，才能找到最合适的“药”。

一、IN：我就是个直肠子

IN操作符，你可以把它想象成一个直肠子，它拿到你给它的列表，然后一条一条地去比较。

SELECT *
FROM orders
WHERE customer_id IN (SELECT customer_id FROM customers WHERE city = 'New York');

这个SQL的意思是：找出所有customer_id在住在纽约的客户的customer_id列表里的订单。

IN的流程大概是这样的：

执行子查询 SELECT customer_id FROM customers WHERE city = 'New York'，得到一个customer_id列表。
对于orders表中的每一行，取出customer_id，然后看它是不是在第一步得到的customer_id列表里。如果在，就返回这一行。

IN的优缺点：

优点： 简单易懂，写起来方便。
缺点：
- 如果子查询返回的列表很大，IN的效率会很低，因为要一条一条地比较。
- MySQL在某些情况下，可能会将IN子查询转换为UNION ALL，如果子查询结果集很大，性能会急剧下降。
- IN对NULL值的处理比较特殊，需要注意。

IN的优化方法：

确保子查询返回的列表尽可能的小。 可以在子查询里加上更多的条件，缩小结果集。
对子查询结果集创建索引。 如果子查询的结果集会被多次使用，可以考虑将其物化为一个临时表，并对临时表创建索引。
使用JOIN代替IN。 在很多情况下，可以用JOIN来代替IN，JOIN的效率通常比IN更高。

IN和NULL:

要特别注意IN和NULL的配合。如果IN列表里有NULL，而且被查询的列也可能为NULL，结果可能和你预期的不一样。

SELECT *
FROM products
WHERE category_id IN (1, 2, NULL);

如果products表里有category_id为NULL的记录，这条SQL不会返回这些记录。因为NULL和任何值的比较结果都是UNKNOWN，而不是TRUE。要处理NULL，你需要显式地使用IS NULL或者IS NOT NULL。

二、EXISTS：我只关心有没有

EXISTS操作符，你可以把它想象成一个侦探，它只关心有没有嫌疑人，而不是关心嫌疑人是谁。

SELECT *
FROM orders o
WHERE EXISTS (SELECT 1 FROM customers c WHERE c.customer_id = o.customer_id AND c.city = 'New York');

这个SQL的意思和上面的IN的例子一样：找出所有customer_id在住在纽约的客户的customer_id列表里的订单。

EXISTS的流程大概是这样的：

对于orders表中的每一行，执行子查询 SELECT 1 FROM customers c WHERE c.customer_id = o.customer_id AND c.city = 'New York'。
如果子查询返回了任何行（哪怕只有一行），EXISTS就返回TRUE，否则返回FALSE。

EXISTS的优缺点：

优点：
- EXISTS只关心子查询有没有返回行，而不关心返回的具体内容，因此子查询里可以写SELECT 1，避免返回不必要的列。
- 在某些情况下，EXISTS的效率比IN更高，特别是当子查询的结果集很大，而你只需要知道是否存在满足条件的记录时。
- EXISTS对NULL值的处理比较直观。
缺点：
- EXISTS的语法可能稍微复杂一些，不如IN那么直观。
- 在某些情况下，IN的效率可能比EXISTS更高，特别是当子查询的结果集很小，并且已经在内存中缓存时。

EXISTS的优化方法：

确保子查询的条件里有索引。 这样可以加快子查询的执行速度。
*尽量避免在子查询里使用`SELECT ，而是使用SELECT 1。** 因为EXISTS`只关心有没有返回行，不需要返回具体的列。
在某些情况下，可以使用JOIN代替EXISTS。

三、IN vs EXISTS：一场友谊赛

现在我们来比较一下IN和EXISTS，看看在什么情况下应该选择哪个。

特性	`IN`	`EXISTS`
工作方式	遍历外层查询的每一行，将外层查询的列与子查询返回的结果集进行比较。	遍历外层查询的每一行，执行子查询，如果子查询返回任何行，则返回`TRUE`，否则返回`FALSE`。
子查询结果集大小	适用于子查询结果集较小的情况。	适用于子查询结果集较大，或者只需要知道是否存在满足条件的记录的情况。
是否关心子查询结果	关心子查询返回的具体结果，需要将外层查询的列与子查询的结果进行比较。	不关心子查询返回的具体结果，只需要知道是否存在满足条件的记录。
对`NULL`的处理	需要特别注意`NULL`值的处理，如果`IN`列表里有`NULL`，而且被查询的列也可能为`NULL`，结果可能和你预期的不一样。	对`NULL`值的处理比较直观，如果子查询返回`NULL`，`EXISTS`仍然会根据子查询是否返回行来判断。
性能	当子查询结果集较小时，`IN`的效率可能更高。	当子查询结果集较大，或者只需要知道是否存在满足条件的记录时，`EXISTS`的效率可能更高。
可读性	简单易懂，写起来方便。	可能稍微复杂一些，不如`IN`那么直观。

总结：

如果子查询返回的列表很小，用IN。
如果子查询返回的列表很大，或者只需要知道是否存在满足条件的记录，用EXISTS。
如果外层表比子查询表小，用EXISTS。
如果外层表比子查询表大，用IN。 （注意这里的表大小是指要扫描的数据量，而不是指表的总行数）
在可以使用JOIN的情况下，优先使用JOIN。

四、一些实际的例子

咱们来看一些实际的例子，加深一下理解。

例子1：查找所有下过订单的客户

-- 使用 IN
SELECT *
FROM customers
WHERE customer_id IN (SELECT customer_id FROM orders);

-- 使用 EXISTS
SELECT *
FROM customers c
WHERE EXISTS (SELECT 1 FROM orders o WHERE o.customer_id = c.customer_id);

-- 使用 JOIN
SELECT c.*
FROM customers c
INNER JOIN orders o ON c.customer_id = o.customer_id
GROUP BY c.customer_id; -- 如果需要去重，可以加上 GROUP BY

在这个例子里，如果orders表比customers表大很多，那么EXISTS可能会更高效。如果customers表比orders表大很多，那么IN可能会更高效。JOIN通常来说也是一个不错的选择，特别是当orders表和customers表都有索引时。

例子2：查找所有没有下过订单的客户

-- 使用 NOT IN
SELECT *
FROM customers
WHERE customer_id NOT IN (SELECT customer_id FROM orders);

-- 使用 NOT EXISTS
SELECT *
FROM customers c
WHERE NOT EXISTS (SELECT 1 FROM orders o WHERE o.customer_id = c.customer_id);

-- 使用 LEFT JOIN
SELECT c.*
FROM customers c
LEFT JOIN orders o ON c.customer_id = o.customer_id
WHERE o.customer_id IS NULL;

在这个例子里，NOT EXISTS通常比NOT IN更高效，因为NOT IN对NULL值的处理比较特殊，容易出错。LEFT JOIN也是一个不错的选择。

五、性能测试：是骡子是马拉出来遛遛

理论说了这么多，不如跑几个实际的测试看看。

为了更好地说明问题，我们创建一个简单的测试环境：

-- 创建 customers 表
CREATE TABLE customers (
    customer_id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(255),
    city VARCHAR(255)
);

-- 创建 orders 表
CREATE TABLE orders (
    order_id INT PRIMARY KEY AUTO_INCREMENT,
    customer_id INT,
    order_date DATE,
    FOREIGN KEY (customer_id) REFERENCES customers(customer_id)
);

-- 插入一些数据 (这里省略了插入数据的代码，可以自己生成一些测试数据)
-- 可以使用存储过程或者程序批量插入数据，保证数据量足够大，才能看出性能差异

然后，我们使用EXPLAIN命令来分析SQL语句的执行计划，看看MySQL是如何执行这些SQL语句的。

EXPLAIN SELECT *
FROM customers
WHERE customer_id IN (SELECT customer_id FROM orders);

EXPLAIN SELECT *
FROM customers c
WHERE EXISTS (SELECT 1 FROM orders o WHERE o.customer_id = c.customer_id);

EXPLAIN SELECT c.*
FROM customers c
INNER JOIN orders o ON c.customer_id = o.customer_id
GROUP BY c.customer_id;

通过EXPLAIN的结果，我们可以看到MySQL使用了哪些索引，扫描了多少行数据，以及使用了哪些连接类型。根据这些信息，我们可以判断SQL语句的效率。

六、总结：选择的艺术

IN和EXISTS都是MySQL里常用的子查询操作符，它们各有优缺点，适用于不同的场景。选择哪个，取决于你的数据和你的SQL怎么写的。

记住以下几点：

理解IN和EXISTS的工作方式。
根据子查询结果集的大小选择合适的操作符。
注意NULL值的处理。
使用EXPLAIN分析SQL语句的执行计划。
在可以使用JOIN的情况下，优先使用JOIN。

最重要的一点是：实践出真知。 多写SQL，多做测试，才能真正掌握IN和EXISTS的用法，写出高效的SQL语句。

好了，今天的讲座就到这里，希望对大家有所帮助！有什么问题，欢迎提问。下次有机会再和大家一起探讨MySQL的其他奥秘！

发表回复 取消回复

发表回复取消回复