MySQL的`索引`：如何利用`多列索引`（`Composite Index`）优化`ORDER BY`与`GROUP BY`查询？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL多列索引优化ORDER BY与GROUP BY查询：一场索引的盛宴

大家好，今天我们要深入探讨MySQL中多列索引如何优化ORDER BY和GROUP BY查询。索引是数据库性能优化的关键，而多列索引，又称复合索引，在特定场景下能发挥巨大的作用。我们将通过理论讲解、案例分析和实战代码，让大家彻底掌握这项技术。

1. 单列索引的局限性

在理解多列索引的威力之前，我们先回顾一下单列索引。单列索引顾名思义，就是基于表中的单个列创建的索引。例如，我们有一个users表，包含id, name, age, city等字段。

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    age INT,
    city VARCHAR(255)
);

INSERT INTO users (id, name, age, city) VALUES
(1, 'Alice', 30, 'New York'),
(2, 'Bob', 25, 'London'),
(3, 'Charlie', 35, 'Paris'),
(4, 'David', 28, 'Tokyo'),
(5, 'Eve', 32, 'New York'),
(6, 'Frank', 26, 'London'),
(7, 'Grace', 33, 'Paris'),
(8, 'Henry', 29, 'Tokyo');

CREATE INDEX idx_age ON users(age);
CREATE INDEX idx_city ON users(city);

如果我们执行以下查询：

SELECT * FROM users WHERE age > 28 AND city = 'New York';

MySQL可能会选择使用idx_age或idx_city其中一个索引，但通常情况下，它会选择成本更低的那个。它不太可能同时使用两个索引，因为这需要进行索引合并（Index Merge），而索引合并通常效率不高。即使使用了索引合并，也可能不如一个精心设计的多列索引。

此外，如果我们执行以下查询：

SELECT * FROM users ORDER BY age;

MySQL会使用idx_age索引，但是它需要对结果进行排序，因为索引只能保证age列的顺序，而不能保证其他列的顺序。

2. 多列索引的优势

多列索引是基于表中的多个列创建的索引。它的优势在于，它可以同时满足多个查询条件，并且可以避免排序操作。

多列索引的创建语法如下：

CREATE INDEX idx_name_age_city ON users(name, age, city);

这个索引包含了name, age, city三列。这三列的顺序非常重要，因为它决定了索引的组织方式。索引会先按照name排序，然后在每个name内部按照age排序，最后在每个name和age内部按照city排序。

3. 多列索引与WHERE子句

多列索引可以优化WHERE子句的查询，但前提是查询条件必须遵循索引的“最左前缀原则”。

最左前缀原则：如果有一个多列索引(col1, col2, col3)，那么以下查询可以使用该索引：

WHERE col1 = value1
WHERE col1 = value1 AND col2 = value2
WHERE col1 = value1 AND col2 = value2 AND col3 = value3
WHERE col1 = value1 AND col2 > value2 (范围查询)
WHERE col1 LIKE 'abc%' (左模糊匹配)

以下查询无法有效使用该索引：

WHERE col2 = value2 (缺少最左边的列)
WHERE col3 = value3 (缺少最左边的列)
WHERE col2 = value2 AND col3 = value3 (缺少最左边的列)
WHERE col1 > value1 AND col2 = value2 (范围查询后不能再使用后面的列)
WHERE col1 LIKE '%abc' (右模糊匹配或全模糊匹配)

例如，对于索引idx_name_age_city，以下查询可以使用索引：

SELECT * FROM users WHERE name = 'Alice';
SELECT * FROM users WHERE name = 'Alice' AND age = 30;
SELECT * FROM users WHERE name = 'Alice' AND age = 30 AND city = 'New York';
SELECT * FROM users WHERE name = 'Alice' AND age > 25;
SELECT * FROM users WHERE name LIKE 'A%';

以下查询无法有效使用索引：

SELECT * FROM users WHERE age = 30;
SELECT * FROM users WHERE city = 'New York';
SELECT * FROM users WHERE age = 30 AND city = 'New York';
SELECT * FROM users WHERE name LIKE '%e';

案例分析

假设我们有以下查询：

SELECT * FROM users WHERE name = 'Alice' AND age > 25 AND city = 'New York';

对于索引idx_name_age_city，这个查询可以使用name列和age列，但city列无法有效利用索引，因为age列使用了范围查询。优化器会使用索引找到所有name = 'Alice' AND age > 25的记录，然后对这些记录进行过滤，找到city = 'New York'的记录。

为了优化这个查询，我们可以调整索引的顺序：

CREATE INDEX idx_name_city_age ON users(name, city, age);

现在，查询可以使用name列和city列，但age列无法有效利用索引。

最佳的索引选择取决于查询的具体情况。如果age > 25的记录数量很少，那么idx_name_city_age可能更有效。如果city = 'New York'的记录数量很少，那么idx_name_age_city可能更有效。

4. 多列索引与ORDER BY子句

多列索引可以优化ORDER BY子句的查询，前提是ORDER BY子句的列必须是索引的最左前缀，并且排序顺序必须与索引的顺序一致。

例如，对于索引idx_name_age_city，以下查询可以使用索引进行排序：

SELECT * FROM users ORDER BY name;
SELECT * FROM users ORDER BY name, age;
SELECT * FROM users ORDER BY name, age, city;
SELECT * FROM users ORDER BY name ASC, age ASC, city ASC;

以下查询无法使用索引进行排序：

SELECT * FROM users ORDER BY age;
SELECT * FROM users ORDER BY city;
SELECT * FROM users ORDER BY name DESC;
SELECT * FROM users ORDER BY name, city;
SELECT * FROM users ORDER BY name ASC, age DESC;

案例分析

假设我们有以下查询：

SELECT * FROM users ORDER BY name, age;

对于索引idx_name_age_city，这个查询可以使用索引进行排序，因为ORDER BY子句的列是索引的最左前缀，并且排序顺序与索引的顺序一致。MySQL可以直接从索引中读取数据，而无需进行额外的排序操作。

但是，如果我们有以下查询：

SELECT * FROM users ORDER BY name, age DESC;

这个查询无法使用索引进行排序，因为age列的排序顺序与索引的顺序不一致。MySQL需要从索引中读取数据，然后对结果进行额外的排序操作。

为了优化这个查询，我们可以创建一个新的索引，指定age列的排序顺序：

CREATE INDEX idx_name_age_desc_city ON users(name, age DESC, city);

现在，查询可以使用索引进行排序。

ORDER BY与WHERE结合

当ORDER BY和WHERE子句同时存在时，多列索引的优化效果会更加明显。例如：

SELECT * FROM users WHERE name = 'Alice' ORDER BY age;

如果存在索引idx_name_age (或 idx_name_age_city 只要保证 name 在前， age 在其后)，那么MySQL可以先使用索引找到所有name = 'Alice'的记录，然后直接按照age列的顺序返回结果，而无需进行额外的排序操作。

如果只有idx_name索引和idx_age索引，MySQL可能会选择使用idx_name索引找到name = 'Alice'的记录，然后对这些记录进行排序。或者，它可能会选择使用idx_age索引扫描整个表，然后对结果进行过滤。这两种方式的效率都比使用idx_name_age索引要低。

5. 多列索引与GROUP BY子句

GROUP BY操作通常涉及排序，因此多列索引也可以用来优化GROUP BY查询。其原理与ORDER BY类似，都是利用索引的有序性避免额外的排序操作。

例如，对于索引idx_name_age_city，以下查询可以使用索引进行分组：

SELECT name, age, COUNT(*) FROM users GROUP BY name, age;
SELECT name, COUNT(*) FROM users GROUP BY name;

以下查询可能无法有效利用索引：

SELECT age, COUNT(*) FROM users GROUP BY age;
SELECT city, COUNT(*) FROM users GROUP BY city, name;  //顺序不对

案例分析

假设我们有以下查询：

SELECT city, AVG(age) FROM users GROUP BY city;

如果只有idx_city单列索引，MySQL可能会扫描整个表，然后对结果进行分组和聚合操作。

但是，如果存在索引idx_city_age，MySQL可以直接从索引中读取数据，并且按照city列的顺序进行分组，然后计算每个city的平均年龄。由于索引已经按照city排序，因此MySQL无需进行额外的排序操作。

GROUP BY与WHERE结合

与ORDER BY类似，当GROUP BY和WHERE子句同时存在时，多列索引的优化效果会更加明显。例如：

SELECT city, AVG(age) FROM users WHERE name LIKE 'A%' GROUP BY city;

如果存在索引idx_name_city_age，MySQL可以先使用索引找到所有name LIKE 'A%'的记录，然后直接按照city列的顺序进行分组和聚合操作。

6. 如何选择合适的索引列顺序

选择合适的索引列顺序是优化多列索引的关键。以下是一些通用的原则：

选择性高的列放在前面：选择性是指列中不同值的数量与总记录数的比率。选择性越高，索引的效果越好。例如，id列的选择性通常很高，而gender列的选择性通常很低。
经常用于WHERE子句的列放在前面：这样可以更快地找到匹配的记录。
经常用于ORDER BY或GROUP BY子句的列放在后面：这样可以避免额外的排序操作。
考虑列的长度：较短的列可以减少索引的大小，提高索引的效率。

案例分析

假设我们有一个orders表，包含order_id, customer_id, order_date, order_amount等字段。

CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE,
    order_amount DECIMAL(10, 2)
);

CREATE INDEX idx_customer_orderdate ON orders(customer_id, order_date);

我们经常需要查询某个客户在某个时间段内的订单：

SELECT * FROM orders WHERE customer_id = 123 AND order_date BETWEEN '2023-01-01' AND '2023-01-31';

由于customer_id的选择性通常比order_date高，因此将customer_id放在索引的前面可以提高索引的效率。

我们还经常需要按照订单日期对订单进行排序：

SELECT * FROM orders WHERE customer_id = 123 ORDER BY order_date;

由于order_date经常用于ORDER BY子句，因此将order_date放在索引的后面可以避免额外的排序操作。

7. 索引的维护成本

虽然索引可以提高查询性能，但它也会带来一些维护成本。

磁盘空间：索引需要占用额外的磁盘空间。
写入性能：当插入、更新或删除记录时，MySQL需要更新索引，这会降低写入性能。

因此，我们需要权衡索引的收益和成本，避免创建过多的索引。

8. 实战代码演示

我们创建一个更大的users表，并插入更多数据，以便更清楚地演示多列索引的优化效果。

DROP TABLE IF EXISTS users;

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    age INT,
    city VARCHAR(255),
    email VARCHAR(255),
    register_date DATE
);

-- 插入 10000 条数据
DELIMITER //
CREATE PROCEDURE insert_users(num INT)
BEGIN
  DECLARE i INT DEFAULT 1;
  WHILE i <= num DO
    INSERT INTO users (id, name, age, city, email, register_date) VALUES
    (i, CONCAT('User', i), FLOOR(RAND() * 50) + 20,  -- 随机年龄 20-70
     CASE FLOOR(RAND() * 4)
       WHEN 0 THEN 'New York'
       WHEN 1 THEN 'London'
       WHEN 2 THEN 'Paris'
       ELSE 'Tokyo'
     END,
     CONCAT('user', i, '@example.com'),
     DATE(NOW() - INTERVAL FLOOR(RAND() * 365 * 5) DAY)); -- 注册时间 5 年内
    SET i = i + 1;
  END WHILE;
END //
DELIMITER ;

CALL insert_users(10000);

现在，我们来测试不同的索引策略：

--  没有索引
EXPLAIN SELECT * FROM users WHERE city = 'New York' AND age > 30 ORDER BY register_date;

--  单列索引
CREATE INDEX idx_city ON users(city);
CREATE INDEX idx_age ON users(age);
CREATE INDEX idx_register_date ON users(register_date);
EXPLAIN SELECT * FROM users WHERE city = 'New York' AND age > 30 ORDER BY register_date;

--  多列索引
DROP INDEX idx_city ON users;
DROP INDEX idx_age ON users;
DROP INDEX idx_register_date ON users;

CREATE INDEX idx_city_age_registerdate ON users(city, age, register_date);
EXPLAIN SELECT * FROM users WHERE city = 'New York' AND age > 30 ORDER BY register_date;

通过EXPLAIN命令，我们可以看到MySQL是如何使用索引的。在没有索引的情况下，MySQL会扫描整个表。使用单列索引后，MySQL可能会选择其中一个索引，然后对结果进行过滤和排序。使用多列索引后，MySQL可以直接使用索引找到匹配的记录，并且按照register_date列的顺序返回结果，从而避免了额外的排序操作。

我们再测试一个GROUP BY的例子：

-- 没有索引
EXPLAIN SELECT city, AVG(age) FROM users GROUP BY city;

-- 单列索引
CREATE INDEX idx_city ON users(city);
EXPLAIN SELECT city, AVG(age) FROM users GROUP BY city;

-- 多列索引
DROP INDEX idx_city ON users;
CREATE INDEX idx_city_age ON users(city, age);
EXPLAIN SELECT city, AVG(age) FROM users GROUP BY city;

可以看到，idx_city_age索引对GROUP BY查询的优化效果非常明显。

9. 避免索引失效

即使创建了索引，也有可能因为某些原因导致索引失效，从而降低查询性能。以下是一些常见的索引失效的原因：

使用函数或表达式：例如，WHERE YEAR(order_date) = 2023无法使用order_date列的索引。
隐式类型转换：例如，如果age列是INT类型，而查询条件是WHERE age = '30'，MySQL可能会将age列转换为字符串类型，从而导致索引失效。
使用NOT、!=、<>：这些操作符通常无法有效利用索引。
OR条件：除非OR条件中的所有列都有索引，否则索引可能失效。
范围查询后继续使用索引：比如WHERE col1 > 10 AND col2 = 5 , 只有 col1能用到索引，col2无法利用索引。

10. 索引监控与优化

索引的优化是一个持续的过程。我们需要定期监控索引的使用情况，并根据实际情况进行调整。

使用SHOW INDEX FROM table_name命令：可以查看表的索引信息，包括索引名称、索引列、索引类型等。
使用EXPLAIN命令：可以分析查询的执行计划，了解MySQL是如何使用索引的。
使用性能监控工具：可以监控数据库的性能指标，包括查询时间、索引使用率等。

根据监控结果，我们可以进行以下优化：

创建新的索引：如果查询没有使用任何索引，或者使用的索引效率不高，可以考虑创建新的索引。
删除无用的索引：如果某些索引很少使用，或者对查询性能没有明显的提升，可以考虑删除这些索引。
重建索引：如果索引的碎片化程度很高，可以考虑重建索引。
调整索引列的顺序：如果索引列的顺序不合理，可以考虑调整索引列的顺序。

多列索引：优化查询的关键

多列索引是MySQL中一个强大的工具，可以用来优化WHERE、ORDER BY和GROUP BY查询。通过合理地创建和使用多列索引，我们可以显著提高数据库的性能。

精心设计的多列索引：提升查询效率的利器

一个精心设计的多列索引，能有效避免全表扫描和文件排序，大幅提升特定查询的效率。理解最左前缀原则和索引列的选择，是打造高效多列索引的关键。

持续的索引优化：保障数据库性能的基石

索引的优化是一个持续的过程，需要定期监控索引的使用情况，并根据实际情况进行调整。这样才能保证数据库始终保持最佳的性能状态。

MySQL多列索引优化ORDER BY与GROUP BY查询：一场索引的盛宴

1. 单列索引的局限性

2. 多列索引的优势

3. 多列索引与WHERE子句

4. 多列索引与ORDER BY子句

5. 多列索引与GROUP BY子句

6. 如何选择合适的索引列顺序

7. 索引的维护成本

8. 实战代码演示

9. 避免索引失效

10. 索引监控与优化

多列索引：优化查询的关键

精心设计的多列索引：提升查询效率的利器

持续的索引优化：保障数据库性能的基石

发表回复 取消回复

发表回复取消回复