MySQL的JSON类型：在大数据量下，如何利用`JSON_EXTRACT`与生成列索引实现高效查询？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL JSON 类型：大数据量下的高效查询策略

大家好，今天我们要探讨的是 MySQL 的 JSON 类型在大数据量场景下的高效查询策略，重点是利用 JSON_EXTRACT 函数与生成列索引来提升查询性能。传统的关系型数据库在处理半结构化数据时往往显得力不从心，而 JSON 类型恰好弥补了这一缺陷。然而，在大数据量下，如果使用不当，JSON 类型的查询可能会成为性能瓶颈。因此，掌握正确的使用姿势至关重要。

JSON 数据类型的优势与挑战

JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式，易于阅读和编写，也易于机器解析和生成。 MySQL 自 5.7 版本开始原生支持 JSON 数据类型，这为存储和查询半结构化数据提供了极大的便利。

优势：

灵活性： 可以存储不同结构的数据，无需预定义严格的 schema。
易用性： 提供了丰富的 JSON 函数，方便数据的提取、更新和操作。
可读性： JSON 格式易于理解，方便开发人员调试和维护。

挑战：

性能问题： 默认情况下，直接在 JSON 列上进行查询会导致全表扫描，性能较差。
索引缺失： 无法直接在 JSON 列上创建普通索引。
复杂性： 复杂的 JSON 查询语句可能难以编写和维护。

`JSON_EXTRACT` 函数：提取 JSON 文档中的特定数据

JSON_EXTRACT 函数是 MySQL 中用于从 JSON 文档中提取数据的关键函数。它接受 JSON 文档和一个或多个路径表达式作为参数，并返回路径表达式匹配到的值。

语法：

JSON_EXTRACT(json_doc, path[, path] ...)

json_doc: 要提取数据的 JSON 文档。
path: 一个或多个路径表达式，用于指定要提取的 JSON 元素。

示例：

假设我们有一个名为 users 的表，其中包含一个名为 profile 的 JSON 列，用于存储用户的个人信息。

CREATE TABLE users (
    id INT PRIMARY KEY AUTO_INCREMENT,
    username VARCHAR(255) NOT NULL,
    profile JSON
);

INSERT INTO users (username, profile) VALUES
('Alice', '{"name": "Alice Smith", "age": 30, "city": "New York", "interests": ["reading", "coding"]}'),
('Bob', '{"name": "Bob Johnson", "age": 25, "city": "Los Angeles", "interests": ["sports", "music"]}'),
('Charlie', '{"name": "Charlie Brown", "age": 35, "city": "Chicago", "interests": ["cooking", "travel"]}');

我们可以使用 JSON_EXTRACT 函数提取用户的姓名：

SELECT username, JSON_EXTRACT(profile, '$.name') AS name FROM users;

结果：

username	name
Alice	"Alice Smith"
Bob	"Bob Johnson"
Charlie	"Charlie Brown"

路径表达式：

路径表达式使用 $ 符号表示 JSON 文档的根节点，使用 . 符号表示对象的属性，使用 [] 符号表示数组的索引。

$.name: 提取根节点下的 name 属性。
$.interests[0]: 提取根节点下 interests 数组的第一个元素。

生成列索引：提升 JSON 查询性能的关键

虽然 JSON_EXTRACT 函数可以提取 JSON 数据，但如果没有索引的支持，在大数据量下查询效率依然很低。生成列 (Generated Columns) 允许我们创建基于表中其他列的虚拟列，并可以在这些虚拟列上创建索引，从而提升查询性能。

生成列的两种类型：

VIRTUAL: 虚拟生成列不会占用存储空间，其值在查询时动态计算。
STORED: 存储生成列会占用存储空间，其值在插入或更新数据时计算并存储。

对于 JSON 数据，我们通常使用 STORED 生成列，因为它可以显著提升查询性能。

创建生成列索引的步骤：

创建生成列： 使用 AS 关键字定义生成列的表达式，该表达式通常包含 JSON_EXTRACT 函数。
创建索引： 在生成列上创建普通索引或前缀索引。

示例：

我们可以创建一个生成列 age，用于存储用户的年龄，并在该列上创建索引：

ALTER TABLE users
ADD COLUMN age INT AS (JSON_EXTRACT(profile, '$.age')) STORED;

CREATE INDEX idx_age ON users (age);

现在，我们可以使用 age 列进行查询，并且可以利用 idx_age 索引来加速查询：

SELECT username FROM users WHERE age > 28;

注意事项：

STORED 生成列会占用额外的存储空间。
生成列的值在插入或更新数据时计算，可能会增加写入操作的开销。
需要根据实际的查询需求选择合适的索引类型（普通索引或前缀索引）。

性能对比：没有索引 vs. 生成列索引

为了更直观地了解生成列索引的性能提升效果，我们可以进行一个简单的性能测试。

测试环境：

MySQL 5.7
测试表 users，包含 100 万条数据，其中 profile 列存储 JSON 数据。
分别测试在没有索引和有生成列索引的情况下，查询用户年龄大于 28 的性能。

测试脚本：

-- 创建测试表
CREATE TABLE users (
    id INT PRIMARY KEY AUTO_INCREMENT,
    username VARCHAR(255) NOT NULL,
    profile JSON
);

-- 插入 100 万条数据 (略)

-- 没有索引的查询
SELECT SQL_NO_CACHE username FROM users WHERE JSON_EXTRACT(profile, '$.age') > 28;

-- 创建生成列和索引
ALTER TABLE users
ADD COLUMN age INT AS (JSON_EXTRACT(profile, '$.age')) STORED;

CREATE INDEX idx_age ON users (age);

-- 有索引的查询
SELECT SQL_NO_CACHE username FROM users WHERE age > 28;

测试结果 (示例)：

查询方式	执行时间 (秒)
没有索引	15.2
生成列索引	0.15

从测试结果可以看出，使用生成列索引后，查询性能提升了近 100 倍。

优化 JSON 查询的策略

除了使用生成列索引，还有一些其他的策略可以优化 JSON 查询的性能：

选择合适的 JSON 函数： MySQL 提供了多种 JSON 函数，例如 JSON_CONTAINS、JSON_ARRAYAGG 等。选择合适的函数可以简化查询语句，提升查询效率。
避免在 JSON 列上使用 LIKE 操作符： LIKE 操作符会导致全表扫描，性能较差。尽量使用 JSON_CONTAINS 函数来判断 JSON 文档是否包含特定的值。
使用前缀索引： 如果只需要查询 JSON 文档的部分内容，可以使用前缀索引来减小索引的大小，提升查询性能。
优化 JSON 文档的结构： 尽量将经常用于查询的字段放在 JSON 文档的顶层，避免使用深层嵌套的结构。
避免过度使用 JSON 类型： 如果数据结构相对固定，可以考虑使用传统的关系型数据类型，而不是全部存储在 JSON 列中。

实际案例分析

假设我们有一个电商网站，需要存储商品的属性信息，例如品牌、型号、颜色、尺寸等。这些属性信息可能因商品类型而异，因此使用 JSON 类型来存储这些属性信息是一个不错的选择。

CREATE TABLE products (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(255) NOT NULL,
    category VARCHAR(255) NOT NULL,
    attributes JSON
);

INSERT INTO products (name, category, attributes) VALUES
('iPhone 13', 'mobile', '{"brand": "Apple", "model": "iPhone 13", "color": "blue", "storage": "128GB"}'),
('Samsung Galaxy S22', 'mobile', '{"brand": "Samsung", "model": "Galaxy S22", "color": "black", "storage": "256GB"}'),
('Adidas T-Shirt', 'clothing', '{"brand": "Adidas", "size": "M", "color": "white", "material": "cotton"}');

现在，我们需要查询所有品牌为 "Apple" 的商品。如果没有索引，查询语句如下：

SELECT name FROM products WHERE JSON_EXTRACT(attributes, '$.brand') = '"Apple"';

为了提升查询性能，我们可以创建一个生成列 brand 和索引：

ALTER TABLE products
ADD COLUMN brand VARCHAR(255) AS (JSON_EXTRACT(attributes, '$.brand')) STORED;

CREATE INDEX idx_brand ON products (brand);

现在，我们可以使用 brand 列进行查询，并且可以利用 idx_brand 索引来加速查询：

SELECT name FROM products WHERE brand = '"Apple"';

此外，我们还可以创建其他生成列和索引，例如 category、color、size 等，以满足不同的查询需求.

总结：高效利用 JSON 存储和检索数据

总之，MySQL 的 JSON 类型为存储和查询半结构化数据提供了极大的便利。然而，在大数据量下，需要合理利用 JSON_EXTRACT 函数和生成列索引来提升查询性能。通过选择合适的 JSON 函数、避免在 JSON 列上使用 LIKE 操作符、使用前缀索引、优化 JSON 文档的结构等策略，可以进一步提升 JSON 查询的效率。在实际应用中，需要根据具体的业务场景和数据特点选择合适的优化策略，以达到最佳的性能效果。

记住，理解数据特性并结合适当的索引策略，是提升 JSON 数据查询性能的关键。