MySQL高级讲座篇之：函数式索引：如何为表达式创建索引以提升查询效率。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，今天咱们来聊聊MySQL里一个有点高级，但贼好用的东西：函数式索引。这玩意儿能让你的查询速度飞起，尤其是在处理一些需要对数据进行计算或者转换的场景。

开场白：数据，你算计它了吗？

有没有遇到过这样的情况：你想根据用户名字的首字母来查询，或者想根据订单金额的绝对值来排序？传统的索引，只能帮你找到原始数据。但是你想根据计算后的结果来查？索引就抓瞎了。

举个栗子，你有个电商网站，有个字段叫 discounted_price (打折后的价格)，你要查所有打折后价格大于100的商品。你可能会这么写：

SELECT * FROM products WHERE discounted_price > 100;

如果 discounted_price 上有个索引，那查询速度还行。但如果你的打折价格是根据原始价格和折扣率计算出来的，数据库里并没有 discounted_price 这个字段，而是有个 original_price 和 discount_rate，你得这样写：

SELECT * FROM products WHERE original_price * (1 - discount_rate) > 100;

完了，索引直接失效！MySQL一看，你这 WHERE 条件这么复杂，还得计算，干脆全表扫描吧！这时候，函数式索引就派上大用场了。

什么是函数式索引？

简单来说，函数式索引就是对表达式的结果建立索引。索引不再是针对某个字段的值，而是针对某个表达式计算后的值。

MySQL 5.7 引入了虚拟列 (Virtual Column)，MySQL 8.0 引入了函数式索引。函数式索引的实现，本质上就是利用虚拟列。

如何创建函数式索引？

创建函数式索引，需要两步：

创建一个虚拟列 (Virtual Column)，这个列的值由一个表达式计算得出。
在这个虚拟列上创建一个索引。

咱们继续上面的例子。假设 products 表结构如下：

CREATE TABLE products (
    id INT PRIMARY KEY AUTO_INCREMENT,
    product_name VARCHAR(255) NOT NULL,
    original_price DECIMAL(10, 2) NOT NULL,
    discount_rate DECIMAL(5, 2) NOT NULL
);

现在，我们要创建一个虚拟列 discounted_price，它的值是 original_price * (1 - discount_rate)：

ALTER TABLE products
ADD COLUMN discounted_price DECIMAL(10, 2) AS (original_price * (1 - discount_rate)) PERSISTENT;

这里要注意：

AS (original_price * (1 - discount_rate)) 定义了虚拟列的计算表达式。
PERSISTENT 关键字表示这个虚拟列的值会被实际存储，而不是每次查询时都计算。如果用 VIRTUAL 关键字，表示虚拟列的值是每次查询时才计算的，性能不如 PERSISTENT。（MySQL 8.0 以后才支持 PERSISTENT 虚拟列）

然后，我们在 discounted_price 上创建一个索引：

CREATE INDEX idx_discounted_price ON products (discounted_price);

搞定！现在，再执行下面的查询：

SELECT * FROM products WHERE discounted_price > 100;

MySQL 就能利用 idx_discounted_price 索引，快速定位到符合条件的记录了。

更复杂的栗子：名字首字母索引

假设你要根据用户名字的首字母来查询用户。你可以这样创建函数式索引：

ALTER TABLE users
ADD COLUMN first_letter VARCHAR(1) AS (LEFT(user_name, 1)) PERSISTENT;

CREATE INDEX idx_first_letter ON users (first_letter);

然后，你可以这样查询：

SELECT * FROM users WHERE first_letter = 'A';

再来一个栗子：日期处理

假设你有个订单表 orders，有个 order_time 字段，记录了订单创建的时间。你要查询某个特定月份的订单。

ALTER TABLE orders
ADD COLUMN order_month INT AS (MONTH(order_time)) PERSISTENT;

CREATE INDEX idx_order_month ON orders (order_month);

然后，你可以这样查询：

SELECT * FROM orders WHERE order_month = 5;  -- 查询5月份的订单

函数式索引的限制

函数式索引虽然强大，但也有一些限制：

虚拟列的类型必须是确定性的。 也就是说，同一个表达式，在任何时候都应该返回相同的结果。例如，RAND() 函数就不行，因为它每次都会返回不同的随机数。
表达式不能包含子查询、存储函数、或者用户自定义函数。
对虚拟列的修改可能会影响性能。 因为修改虚拟列的值，实际上是修改了计算表达式的结果，数据库需要重新计算和更新索引。
虚拟列会占用存储空间。 尤其是 PERSISTENT 虚拟列，它需要实际存储计算后的值。

什么时候使用函数式索引？

以下情况可以考虑使用函数式索引：

WHERE 子句中使用了复杂的表达式。
需要对数据进行转换或者计算后才能进行查询。
对字符串进行部分匹配或者提取。
对日期进行处理。
需要创建唯一索引，但是字段本身的值不是唯一的。 例如，你想根据邮箱地址的域名来创建唯一索引，可以先提取域名，然后创建唯一索引。

函数式索引的优势

提高查询性能。 通过对表达式的结果建立索引，可以避免全表扫描，加速查询速度。
简化查询语句。 可以将复杂的表达式放在虚拟列中，查询时直接使用虚拟列，使查询语句更加简洁易懂。
支持更灵活的查询方式。 可以根据表达式的结果进行查询，而不是只能根据原始字段的值进行查询。

函数式索引的劣势

增加存储空间。 PERSISTENT 虚拟列需要占用额外的存储空间。
维护成本增加。 对基础数据的修改可能会影响虚拟列的值，需要维护虚拟列和索引的一致性。
有一定的使用限制。 例如，表达式必须是确定性的，不能包含子查询等。

总结：函数式索引，你值得拥有！

函数式索引是MySQL中一个非常有用的特性，可以显著提高查询性能，简化查询语句，支持更灵活的查询方式。但是，它也有一些限制和缺点，需要根据实际情况权衡利弊，选择合适的索引策略。

总而言之，函数式索引就像一个“翻译官”，把你的复杂查询“翻译”成索引能够理解的语言，从而提高查询效率。学会使用它，你的MySQL技能就能更上一层楼！

一些小技巧和注意事项：

尽量使用 PERSISTENT 虚拟列。 除非你的计算非常简单，而且数据更新不频繁，否则 VIRTUAL 虚拟列的性能会比较差。
避免在表达式中使用复杂的函数。 复杂的函数会降低索引的效率。
定期检查和优化索引。 随着数据的增长和查询模式的变化，索引可能需要进行优化或者重建。
在创建虚拟列和索引之前，先进行测试。 确保虚拟列的计算结果符合预期，索引能够提高查询性能。

代码示例：更多场景的应用

JSON字段索引： 假设你有一个 data 字段，存储的是 JSON 格式的数据，你想根据 JSON 里面的某个字段来查询。

CREATE TABLE json_data (
    id INT PRIMARY KEY AUTO_INCREMENT,
    data JSON
);

ALTER TABLE json_data
ADD COLUMN name VARCHAR(255) AS (data ->> '$.name') PERSISTENT;

CREATE INDEX idx_name ON json_data (name);

SELECT * FROM json_data WHERE name = 'John Doe';

地理位置索引： 假设你有一个 location 字段，存储的是 POINT 类型的数据，你想根据距离来查询附近的地点。 (需要 MySQL 5.7.6+)

CREATE TABLE locations (
    id INT PRIMARY KEY AUTO_INCREMENT,
    location POINT SRID 4326
);

ALTER TABLE locations
ADD COLUMN latitude DECIMAL(10, 8) AS (ST_Y(location)) PERSISTENT,
ADD COLUMN longitude DECIMAL(11, 8) AS (ST_X(location)) PERSISTENT;

CREATE SPATIAL INDEX idx_location ON locations (location);

-- 查询距离某个坐标点 10 公里以内的地点
SELECT * FROM locations
WHERE ST_Distance_Sphere(location, POINT(longitude, latitude)) <= 10000;

大小写不敏感的索引：

ALTER TABLE users
ADD COLUMN lower_email VARCHAR(255) AS (LOWER(email)) PERSISTENT;

CREATE INDEX idx_lower_email ON users (lower_email);

SELECT * FROM users WHERE lower_email = '[email protected]';

表格总结：函数式索引的优缺点和使用场景

特性	优点	缺点	适用场景
性能	显著提高查询性能，避免全表扫描。	增加存储空间 (特别是 `PERSISTENT` 虚拟列)，对基础数据的修改可能会影响虚拟列的值，需要维护虚拟列和索引的一致性，表达式计算可能会带来一定的性能开销 (特别是 `VIRTUAL` 虚拟列)。	`WHERE` 子句中使用了复杂的表达式，需要对数据进行转换或者计算后才能进行查询，对字符串进行部分匹配或者提取，对日期进行处理，需要创建唯一索引，但是字段本身的值不是唯一的。
灵活性	简化查询语句，可以将复杂的表达式放在虚拟列中，查询时直接使用虚拟列，使查询语句更加简洁易懂，支持更灵活的查询方式，可以根据表达式的结果进行查询，而不是只能根据原始字段的值进行查询。	有一定的使用限制，例如，表达式必须是确定性的，不能包含子查询等，虚拟列的类型必须是确定性的。	JSON字段索引，地理位置索引，大小写不敏感的索引，需要对数据进行复杂处理才能进行查询的场景。
维护成本	如果表达式定义合理，可以降低业务代码的复杂性，将计算逻辑放到数据库层面。	需要考虑数据一致性问题，特别是当基础数据发生变化时，需要确保虚拟列的值也能够及时更新。	数据分析，报表统计，需要对数据进行预处理的场景。
存储空间	无	`PERSISTENT` 虚拟列需要占用额外的存储空间。	对存储空间要求不敏感，对查询性能要求较高的场景。

好了，今天的函数式索引讲座就到这里。希望各位观众老爷能够掌握这个技巧，让你的MySQL查询飞起来！感谢大家的收听！我们下期再见！

发表回复 取消回复

发表回复取消回复