MySQL编程进阶之：函数式索引的设计与应用：如何为复杂的表达式创建索引。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众，欢迎来到今天的“MySQL编程进阶”讲座！今天我们要聊点刺激的，聊聊MySQL世界里“函数式索引”这个听起来有点高大上，但实际上非常好用的家伙。

(一) 什么是函数式索引？别慌，没那么玄乎！

简单来说，函数式索引就是基于表达式创建的索引。想象一下，你有个users表，里面有个email字段，但你经常需要忽略大小写地搜索邮件，比如查[email protected]和[email protected]都应该返回相同的结果。传统的索引只能对原始的email值进行索引，无法直接处理大小写问题。这个时候，函数式索引就派上用场了！

我们可以创建一个基于LOWER(email)的索引，这样MySQL就会对email转换成小写后的值进行索引，忽略大小写差异。

(二) 为什么要用函数式索引？传统索引不好吗？

传统索引当然很好，但它们有局限性。想象一下以下场景：

复杂查询条件： 你经常需要根据DATE(created_at)进行查询，也就是只关心created_at的日期部分，忽略时间。
数据转换： 你需要对JSON字段中的某个值进行索引，或者需要对字符串进行特定的格式化处理。
避免冗余数据： 你不想为了索引而额外创建一个冗余的列，只想基于现有列的某种计算结果建立索引。

在这些情况下，如果使用传统索引，要么性能很差，要么需要修改表结构增加冗余列，而函数式索引则可以优雅地解决这些问题。

表格：传统索引 vs. 函数式索引

特性	传统索引	函数式索引
索引对象	列的值	表达式的结果
适用场景	对原始列值的精确或范围查询	复杂查询条件、数据转换、避免冗余列
性能	简单查询性能好	复杂查询性能好，但可能增加索引维护成本
灵活性	低	高
维护成本	低	较高，特别是表达式复杂时

(三) 函数式索引的语法：简单易懂，一学就会！

在MySQL 5.7及以下版本，函数式索引通常需要借助虚拟列(Virtual Columns)来实现，从MySQL 8.0开始，可以直接创建函数式索引，语法更加简洁。

1. MySQL 8.0+ 的函数式索引：

CREATE INDEX index_name ON table_name ((expression));

index_name: 索引的名称，随便你起，但最好能反映索引的用途。
table_name: 表的名称，这个可不能写错。
(expression): 重点来了！ 这是你想要索引的表达式。可以是任何有效的MySQL表达式，比如LOWER(email)、DATE(created_at)、JSON_EXTRACT(data, '$.age')等等。

举个例子：

-- 对 users 表的 email 字段的小写形式创建索引
CREATE INDEX idx_email_lower ON users ((LOWER(email)));

-- 对 orders 表的 created_at 字段的日期部分创建索引
CREATE INDEX idx_created_at_date ON orders ((DATE(created_at)));

--对 json字段中 age 属性创建索引
CREATE INDEX idx_age ON users ((JSON_EXTRACT(data, '$.age')));

2. MySQL 5.7 及以下的虚拟列 + 索引：

由于老版本不支持直接创建函数式索引，我们需要先创建一个虚拟列，然后对虚拟列创建索引。

-- 1. 添加虚拟列
ALTER TABLE table_name
ADD COLUMN virtual_column_name data_type AS (expression) PERSISTENT;

-- 2. 对虚拟列创建索引
CREATE INDEX index_name ON table_name (virtual_column_name);

virtual_column_name: 虚拟列的名称，也需要好好起。
data_type: 虚拟列的数据类型，需要根据表达式的结果来选择。
PERSISTENT: 这个关键字很重要！表示虚拟列的值会实际存储在磁盘上，这样才能创建索引。如果使用VIRTUAL，则虚拟列的值是动态计算的，无法创建索引。(MySQL 5.7 才支持 PERSISTENT)

举个例子：

-- 1. 添加 email 字段的小写形式的虚拟列
ALTER TABLE users
ADD COLUMN email_lower VARCHAR(255) AS (LOWER(email)) PERSISTENT;

-- 2. 对 email_lower 虚拟列创建索引
CREATE INDEX idx_email_lower ON users (email_lower);

(四) 函数式索引的应用场景：让你的查询飞起来！

说了这么多，让我们来看几个具体的应用场景，看看函数式索引是如何大显身手的。

1. 忽略大小写的字符串搜索：

假设你有一个products表，里面有个name字段，你想忽略大小写地搜索商品名称。

-- MySQL 8.0+
CREATE INDEX idx_product_name_lower ON products ((LOWER(name)));

-- 查询时也需要使用 LOWER 函数
SELECT * FROM products WHERE LOWER(name) = 'iphone';

-- MySQL 5.7 及以下
ALTER TABLE products ADD COLUMN name_lower VARCHAR(255) AS (LOWER(name)) PERSISTENT;
CREATE INDEX idx_product_name_lower ON products (name_lower);

SELECT * FROM products WHERE name_lower = 'iphone';

2. 日期范围查询：

你经常需要查询某个日期范围内的订单，但created_at字段包含了具体的时间。

-- MySQL 8.0+
CREATE INDEX idx_order_date ON orders ((DATE(created_at)));

-- 查询时使用 DATE 函数
SELECT * FROM orders WHERE DATE(created_at) BETWEEN '2023-01-01' AND '2023-01-31';

-- MySQL 5.7 及以下
ALTER TABLE orders ADD COLUMN order_date DATE AS (DATE(created_at)) PERSISTENT;
CREATE INDEX idx_order_date ON orders (order_date);

SELECT * FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-01-31';

3. JSON 字段索引：

你的数据存储在JSON字段中，你想根据JSON字段中的某个属性进行查询。

-- 假设 users 表的 data 字段是一个 JSON 字符串，包含 age 属性
-- MySQL 8.0+
CREATE INDEX idx_user_age ON users ((CAST(JSON_EXTRACT(data, '$.age') AS UNSIGNED)));

-- 查询时需要使用 JSON_EXTRACT 函数
SELECT * FROM users WHERE CAST(JSON_EXTRACT(data, '$.age') AS UNSIGNED) > 18;

-- MySQL 5.7 及以下 (稍微麻烦点)
ALTER TABLE users ADD COLUMN user_age INT AS (CAST(JSON_EXTRACT(data, '$.age') AS UNSIGNED)) PERSISTENT;
CREATE INDEX idx_user_age ON users (user_age);

SELECT * FROM users WHERE user_age > 18;

注意： 在MySQL 5.7及以下版本中，由于虚拟列的数据类型是固定的，所以在创建JSON字段索引时，需要将JSON_EXTRACT的结果转换为合适的数据类型，比如UNSIGNED或SIGNED。

4. 复杂表达式索引：

有时候你的查询条件非常复杂，需要用到多个函数和操作符。

-- 假设你需要根据用户的注册年份和月份进行查询
-- MySQL 8.0+
CREATE INDEX idx_user_reg_year_month ON users ((CONCAT(YEAR(created_at), '-', MONTH(created_at))));

-- 查询时也需要使用相同的表达式
SELECT * FROM users WHERE CONCAT(YEAR(created_at), '-', MONTH(created_at)) = '2023-10';

-- MySQL 5.7 及以下
ALTER TABLE users ADD COLUMN reg_year_month VARCHAR(7) AS (CONCAT(YEAR(created_at), '-', MONTH(created_at))) PERSISTENT;
CREATE INDEX idx_user_reg_year_month ON users (reg_year_month);

SELECT * FROM users WHERE reg_year_month = '2023-10';

(五) 函数式索引的注意事项：别踩坑！

函数式索引虽然强大，但也有一些需要注意的地方，否则可能会适得其反。

表达式的复杂度： 表达式越复杂，索引的维护成本越高。每次数据更新时，MySQL都需要计算表达式的结果并更新索引，这会影响写入性能。因此，尽量选择简单的表达式。
数据类型转换： 确保表达式的结果类型与查询条件的数据类型匹配。如果类型不匹配，MySQL可能无法使用索引。
查询条件的一致性： 查询条件必须与索引表达式完全一致，MySQL才能使用索引。比如，如果你创建了LOWER(email)的索引，查询时也必须使用LOWER(email)，否则索引无效。
索引长度限制： MySQL的索引长度有限制，如果表达式的结果太长，可能会导致索引创建失败。
存储空间： 函数式索引会占用额外的存储空间，特别是当索引的表达式比较复杂时。
虚拟列的维护： 在MySQL 5.7及以下版本中，虚拟列需要占用额外的存储空间，并且在数据更新时需要维护虚拟列的值，这会增加写入开销。
可维护性： 复杂的表达式可能难以理解和维护。在创建函数式索引之前，请仔细考虑其可维护性。

表格：函数式索引的优缺点

优点	缺点
提升复杂查询的性能	增加索引维护成本，特别是表达式复杂时
避免冗余列，节省存储空间	查询条件必须与索引表达式一致才能使用索引
可以对JSON字段等复杂数据类型进行索引	表达式的结果类型需要与查询条件的数据类型匹配
提高查询的灵活性，满足各种复杂查询需求	可能会受到索引长度限制
	需要考虑可维护性，复杂的表达式可能难以理解和维护

(六) 如何选择合适的索引？没有最好的，只有最适合的！

选择索引是一个需要权衡的过程，没有绝对的正确答案。你需要根据你的具体应用场景、查询模式和数据特点来做出决策。

了解你的查询： 分析你的查询语句，找出最常见的查询条件。如果查询条件涉及到复杂的表达式，那么函数式索引可能是一个不错的选择。
评估性能影响： 在生产环境之前，先在测试环境进行性能测试，评估索引对查询和写入性能的影响。
考虑存储成本： 评估索引占用的存储空间，并权衡其带来的性能提升。
监控索引使用情况： 定期监控索引的使用情况，看看哪些索引被频繁使用，哪些索引很少使用。对于很少使用的索引，可以考虑删除。
使用 EXPLAIN： 使用 EXPLAIN 命令来分析查询语句的执行计划，看看MySQL是否使用了索引。如果MySQL没有使用索引，你需要检查查询条件是否与索引表达式一致，或者索引是否有效。

(七) 最后，来点总结！

函数式索引是MySQL中一个强大的工具，可以帮助你优化复杂查询的性能。但是，你需要谨慎使用，权衡其优缺点，并根据你的具体应用场景做出决策。

记住，没有银弹！ 选择合适的索引需要结合你的实际情况，进行充分的测试和评估。

希望今天的讲座对你有所帮助！祝你编码愉快！下次再见！

发表回复 取消回复

发表回复取消回复