MySQL高级讲座篇之：探讨MySQL的`Vector Search`功能：如何处理向量数据以支持相似性搜索？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷，大家好！我是今天的主讲人，一个在代码堆里摸爬滚打多年的老码农。今天咱们不聊虚的，直接上硬货：MySQL的Vector Search功能，聊聊如何用它来处理向量数据，支持那些让人心动的相似性搜索。

开场白：告别“大海捞针”的传统搜索

话说，在信息爆炸的时代，传统的关键词搜索就像大海捞针，捞上来的可能全是水草。比如，你想找一张“夕阳下的海滩”的照片，用关键词搜出来的可能全是卖泳装的广告。

但有了向量搜索，情况就不一样了。它能理解图片、文本、甚至视频的“语义”，然后根据语义的相似度来找东西。这就像找一个“感觉像夕阳下的海滩”的东西，而不是非得包含那几个关键词。

第一部分：什么是向量搜索？别怕，没那么玄乎

别被“向量”这两个字吓跑，其实它就是一个包含数字的列表。这些数字代表了数据的一些特征。比如，一张图片可以用一个包含几百甚至几千个数字的向量来表示，这些数字编码了图片的颜色、形状、纹理等等信息。

1.1 向量嵌入（Embedding）：把数据变成数字

要把图片、文本变成向量，我们需要用到一个叫做“嵌入模型（Embedding Model）”的东西。你可以把它想象成一个黑盒子，你扔进去一张图片，它吐出来一个向量。

常见的嵌入模型有很多，比如：

图像嵌入： CLIP, ResNet, VGG 等。
文本嵌入： Word2Vec, GloVe, BERT, Sentence-BERT 等。

这些模型都是经过大量数据训练的，能够提取出数据的关键特征，并用向量的形式表示出来。

1.2 相似度计算：找到“感觉像”的东西

有了向量，我们就可以计算它们之间的相似度了。常用的相似度计算方法有：

余弦相似度（Cosine Similarity）： 这是最常用的方法，它计算两个向量之间的夹角余弦值。余弦值越接近1，表示两个向量越相似。
欧氏距离（Euclidean Distance）： 这是计算两个向量之间的直线距离。距离越小，表示两个向量越相似。
点积（Dot Product）： 这是计算两个向量对应元素的乘积之和。点积越大，表示两个向量越相似。

表格 1：相似度计算方法对比

方法	公式	优点	缺点
余弦相似度	`cos(θ) = (A · B) / (\|\|A\|\| \|\|B\|\|)`	对向量的长度不敏感，适合处理长度不一致的向量。	计算量相对较大。
欧氏距离	`d(A, B) = √(∑(Ai - Bi)^2)`	简单易懂，计算速度快。	对向量的长度敏感，需要先进行归一化处理。
点积	`A · B = ∑(Ai * Bi)`	计算速度非常快。	对向量的长度敏感，需要先进行归一化处理。对向量的分布有要求，如果向量分布不均匀，可能导致结果偏差较大。

第二部分：MySQL 8.0 的 Vector Search 功能：姗姗来迟的惊喜

MySQL 8.0 之后，终于加入了对向量搜索的原生支持。这意味着我们可以直接在 MySQL 数据库中存储向量数据，并进行高效的相似性搜索，而不需要依赖外部的向量数据库（比如 Faiss、Milvus 等）。

2.1 数据类型：JSON 数组存向量

MySQL 中，向量数据通常存储在 JSON 数组中。比如，我们可以创建一个包含向量数据的表：

CREATE TABLE items (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    embedding JSON
);

这里的 embedding 字段存储的就是向量数据，它是一个 JSON 数组。

2.2 函数：JSON_CONTAINS 和 JSON_EXTRACT

MySQL 提供了一些函数来操作 JSON 数据，其中最常用的就是 JSON_CONTAINS 和 JSON_EXTRACT。

JSON_CONTAINS(target, candidate)：判断 target JSON 文档是否包含 candidate JSON 文档。
JSON_EXTRACT(json_doc, path)：从 json_doc 中提取指定路径的数据。

虽然这两个函数不是专门为向量搜索设计的，但我们可以利用它们来实现一些简单的向量搜索功能。

2.3 相似度计算：自定义函数来实现

MySQL 本身没有提供计算向量相似度的内置函数，所以我们需要自己写一个。比如，我们可以创建一个计算余弦相似度的函数：

DELIMITER //
CREATE FUNCTION cosine_similarity(vec1 JSON, vec2 JSON)
RETURNS FLOAT
DETERMINISTIC
BEGIN
    DECLARE dot_product FLOAT DEFAULT 0;
    DECLARE magnitude1 FLOAT DEFAULT 0;
    DECLARE magnitude2 FLOAT DEFAULT 0;
    DECLARE i INT DEFAULT 0;
    DECLARE len INT;

    -- 获取向量长度
    SET len = JSON_LENGTH(vec1);

    -- 计算点积、向量1的模、向量2的模
    WHILE i < len DO
        SET dot_product = dot_product + JSON_EXTRACT(vec1, CONCAT('$[', i, ']')) * JSON_EXTRACT(vec2, CONCAT('$[', i, ']'));
        SET magnitude1 = magnitude1 + POW(JSON_EXTRACT(vec1, CONCAT('$[', i, ']')), 2);
        SET magnitude2 = magnitude2 + POW(JSON_EXTRACT(vec2, CONCAT('$[', i, ']')), 2);
        SET i = i + 1;
    END WHILE;

    SET magnitude1 = SQRT(magnitude1);
    SET magnitude2 = SQRT(magnitude2);

    -- 计算余弦相似度
    IF magnitude1 = 0 OR magnitude2 = 0 THEN
        RETURN 0;
    ELSE
        RETURN dot_product / (magnitude1 * magnitude2);
    END IF;
END //
DELIMITER ;

这个函数接收两个 JSON 数组作为参数，计算它们的余弦相似度，并返回结果。

2.4 搜索：利用自定义函数进行相似性搜索

有了相似度计算函数，我们就可以进行相似性搜索了：

SELECT id, name, cosine_similarity(embedding, '[0.1, 0.2, 0.3, 0.4, 0.5]') AS similarity
FROM items
ORDER BY similarity DESC
LIMIT 10;

这条 SQL 语句会从 items 表中选取前10个与向量 [0.1, 0.2, 0.3, 0.4, 0.5] 最相似的记录。

第三部分：实战演练：构建一个简单的图像搜索系统

光说不练假把式，咱们来做一个简单的图像搜索系统，让大家更直观地了解 MySQL 的 Vector Search 功能。

3.1 准备工作：安装依赖，获取数据

Python 环境： 确保你已经安装了 Python 3.6 或更高版本。
MySQL 数据库： 确保你已经安装了 MySQL 8.0 或更高版本。
Python 库： 安装 mysql-connector-python 和 Pillow 库：
```
pip install mysql-connector-python Pillow
```
数据集： 我们使用一个小型图像数据集，比如 CIFAR-10 的一部分。你可以从网上下载。

3.2 步骤一：提取图像特征

我们使用一个预训练的图像嵌入模型（比如 ResNet50）来提取图像特征。这里为了简化，我们直接使用一个随机向量来模拟图像特征。

import mysql.connector
from PIL import Image
import numpy as np
import os

# 数据库配置
db_config = {
    'user': 'your_user',
    'password': 'your_password',
    'host': 'your_host',
    'database': 'your_database'
}

# 图片目录
image_dir = 'images'  # 替换成你的图片目录

def generate_random_embedding(dimension=128):
    """生成随机向量"""
    return np.random.rand(dimension).tolist()

def insert_image_data(image_path, embedding):
    """将图像数据插入到数据库"""
    try:
        cnx = mysql.connector.connect(**db_config)
        cursor = cnx.cursor()

        image_name = os.path.basename(image_path)
        embedding_json = str(embedding).replace("'", "").replace(" ", "")  # 转换成JSON字符串

        query = "INSERT INTO items (name, embedding) VALUES (%s, JSON(%s))"
        cursor.execute(query, (image_name, embedding_json))

        cnx.commit()
        print(f"Inserted {image_name} into database.")

    except mysql.connector.Error as err:
        print(f"Error: {err}")
    finally:
        if cnx:
            cursor.close()
            cnx.close()

# 遍历图片目录，提取特征并插入数据库
for filename in os.listdir(image_dir):
    if filename.endswith(('.jpg', '.jpeg', '.png')):
        image_path = os.path.join(image_dir, filename)
        embedding = generate_random_embedding()  # 替换成真正的特征提取
        insert_image_data(image_path, embedding)

print("Done!")

这段代码会遍历图片目录，为每张图片生成一个随机向量，并将图像名称和向量数据插入到 items 表中。

3.3 步骤二：创建数据库表和函数

在 MySQL 数据库中，创建 items 表和 cosine_similarity 函数（如果之前没有创建的话）。

CREATE TABLE items (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(255),
    embedding JSON
);

DELIMITER //
CREATE FUNCTION cosine_similarity(vec1 JSON, vec2 JSON)
RETURNS FLOAT
DETERMINISTIC
BEGIN
    DECLARE dot_product FLOAT DEFAULT 0;
    DECLARE magnitude1 FLOAT DEFAULT 0;
    DECLARE magnitude2 FLOAT DEFAULT 0;
    DECLARE i INT DEFAULT 0;
    DECLARE len INT;

    -- 获取向量长度
    SET len = JSON_LENGTH(vec1);

    -- 计算点积、向量1的模、向量2的模
    WHILE i < len DO
        SET dot_product = dot_product + JSON_EXTRACT(vec1, CONCAT('$[', i, ']')) * JSON_EXTRACT(vec2, CONCAT('$[', i, ']'));
        SET magnitude1 = magnitude1 + POW(JSON_EXTRACT(vec1, CONCAT('$[', i, ']')), 2);
        SET magnitude2 = magnitude2 + POW(JSON_EXTRACT(vec2, CONCAT('$[', i, ']')), 2);
        SET i = i + 1;
    END WHILE;

    SET magnitude1 = SQRT(magnitude1);
    SET magnitude2 = SQRT(magnitude2);

    -- 计算余弦相似度
    IF magnitude1 = 0 OR magnitude2 = 0 THEN
        RETURN 0;
    ELSE
        RETURN dot_product / (magnitude1 * magnitude2);
    END IF;
END //
DELIMITER ;

3.4 步骤三：进行相似性搜索

编写 Python 代码，根据输入的图像，在数据库中进行相似性搜索：

import mysql.connector
import numpy as np

# 数据库配置
db_config = {
    'user': 'your_user',
    'password': 'your_password',
    'host': 'your_host',
    'database': 'your_database'
}

def search_similar_images(query_embedding, limit=10):
    """在数据库中搜索相似图像"""
    try:
        cnx = mysql.connector.connect(**db_config)
        cursor = cnx.cursor()

        query_embedding_json = str(query_embedding).replace("'", "").replace(" ", "")

        query = f"""
            SELECT id, name, cosine_similarity(embedding, JSON('{query_embedding_json}')) AS similarity
            FROM items
            ORDER BY similarity DESC
            LIMIT {limit};
        """
        cursor.execute(query)

        results = cursor.fetchall()
        return results

    except mysql.connector.Error as err:
        print(f"Error: {err}")
        return []
    finally:
        if cnx:
            cursor.close()
            cnx.close()

# 模拟用户上传一张图片
query_image_path = 'images/cat.1.jpg'  # 替换成你的查询图片
query_embedding = generate_random_embedding()  # 替换成真正的特征提取

# 进行相似性搜索
similar_images = search_similar_images(query_embedding)

# 打印搜索结果
print("Similar Images:")
for image_id, image_name, similarity in similar_images:
    print(f"ID: {image_id}, Name: {image_name}, Similarity: {similarity:.4f}")

这段代码会生成一个随机向量作为查询向量，然后在 items 表中搜索与之最相似的10张图片，并打印出它们的 ID、名称和相似度。

第四部分：MySQL Vector Search 的局限性与未来展望

虽然 MySQL 8.0 提供了 Vector Search 功能，但它仍然存在一些局限性：

性能问题： 使用自定义函数进行相似度计算，性能比较差，不适合处理大规模向量数据。
索引缺失： MySQL 没有提供专门的向量索引，无法加速相似性搜索。
功能有限： MySQL 的 Vector Search 功能比较简单，不支持复杂的向量操作（比如向量加减、向量归一化等）。

表格 2：MySQL Vector Search 的优缺点

优点	缺点
原生支持，无需依赖外部向量数据库。	性能较差，不适合处理大规模向量数据。
可以与其他 MySQL 功能（比如事务、备份等）无缝集成。	索引缺失，无法加速相似性搜索。
降低了系统的复杂度，简化了部署和维护。	功能有限，不支持复杂的向量操作。

未来展望

未来，MySQL 可能会在 Vector Search 方面进行以下改进：

引入向量索引： 提供专门的向量索引，比如 HNSW、IVF 等，以加速相似性搜索。
优化相似度计算： 提供内置的相似度计算函数，并使用 SIMD 指令进行优化，以提高性能。
支持更多向量操作： 提供更多的向量操作函数，以支持更复杂的应用场景。

第五部分：总结：MySQL Vector Search 的价值与应用场景

总的来说，MySQL 的 Vector Search 功能虽然还不够完善，但它仍然具有一定的价值。它可以用于一些对性能要求不高的场景，比如：

小型推荐系统： 根据用户的历史行为，推荐相似的商品或内容。
简单的图像搜索： 根据用户上传的图片，搜索相似的图片。
智能客服： 根据用户的问题，搜索相似的问题，并给出答案。

结束语：向量搜索，未来可期

向量搜索是人工智能时代的一项关键技术，它将改变我们搜索信息的方式。虽然 MySQL 的 Vector Search 功能还处于起步阶段，但我们有理由相信，它将在未来发挥越来越重要的作用。

好了，今天的讲座就到这里。感谢大家的观看！希望大家能够有所收获，并在实际项目中灵活运用 MySQL 的 Vector Search 功能。记住，代码不止有 bug，还有诗和远方！

发表回复 取消回复

发表回复取消回复