RediSearch 的索引创建策略：倒排索引与前缀索引 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好嘞，各位看官，欢迎来到老码农的RediSearch索引策略脱口秀！今天咱们不谈风花雪月，就聊聊RediSearch里那两个扛把子——倒排索引和前缀索引。这俩哥们儿，一个负责精准打击，一个擅长地毯式搜索，简直是数据海洋里捞针的绝配！

开场白：索引，数据海洋里的灯塔

各位有没有想象过，如果咱们的大脑没有记忆功能，每次想找个东西都得从头到尾翻一遍，那得是多么痛苦的一件事儿啊！数据库也一样，没有索引，那就像大海捞针，效率低到令人发指。

索引，就好比是数据海洋里的灯塔，它能指引我们快速找到想要的信息，大大缩短搜索时间。RediSearch作为Redis的扩展模块，专门用于全文搜索，它的索引策略更是重中之重。

第一幕：倒排索引——精准打击的王牌特工

咱们先来说说倒排索引，这可是全文搜索领域里的大佬级人物。它的核心思想是：把文档内容拆分成一个个词语（Term），然后记录每个词语都出现在哪些文档里。

举个栗子，假设咱们有三篇文档：

文档1: "RediSearch is a powerful search engine."
文档2: "Redis is a fast in-memory data store."
文档3: "RediSearch supports full-text search."

那么，倒排索引长什么样呢？我们可以用一个表格来表示：

词语 (Term)	文档ID列表 (Document IDs)
RediSearch	1, 3
Redis	2
is	1, 2
a	1, 2
powerful	1
search	1, 3
engine	1
fast	2
in-memory	2
data	2
store	2
supports	3
full-text	3

看到没？每个词语都对应着一个文档ID列表，告诉我们这个词语出现在哪些文档里。

倒排索引的优点：

查询速度快： 只需要查找词语对应的文档ID列表，就能快速找到包含该词语的文档。
支持复杂的查询： 可以进行布尔查询（AND, OR, NOT）、短语查询、模糊查询等。

倒排索引的缺点：

占用空间大： 需要存储每个词语和对应的文档ID列表，所以索引体积相对较大。
更新成本高： 当文档内容发生变化时，需要更新索引，这会带来一定的性能开销。

RediSearch里的倒排索引：

在RediSearch里，倒排索引的实现非常高效。它采用了多种优化技术，例如：

压缩技术： 对文档ID列表进行压缩，减少索引体积。
跳跃表： 加速文档ID列表的查找。
增量索引： 允许在不重建整个索引的情况下，添加或更新文档。

应用场景：

倒排索引适用于需要进行全文搜索的场景，例如：

电商网站： 用户搜索商品。
新闻网站： 用户搜索新闻文章。
知识库： 用户搜索知识条目。

第二幕：前缀索引——地毯式搜索的先锋战士

接下来，咱们再来说说前缀索引。这哥们儿擅长模糊搜索，只要知道关键词的前几个字母，就能找到所有匹配的文档。

前缀索引，顾名思义，就是以词语的前缀作为索引。 比如，咱们要对 "RediSearch" 这个词建立前缀索引，可以建立以下索引：

R
Re
Red
Redi
Redis
RediS
RediSe
RediSea
RediSear
RediSearc
RediSearch

前缀索引的优点：

支持前缀搜索： 可以根据关键词的前缀快速找到所有匹配的文档。
实现简单： 相比倒排索引，实现起来更容易。

前缀索引的缺点：

只能进行前缀搜索： 不能进行后缀搜索、模糊搜索等。
索引体积大： 如果词语长度较长，前缀索引的体积会非常大。
查询效率相对较低： 需要遍历所有前缀匹配的索引项。

RediSearch里的前缀索引：

RediSearch也支持前缀索引，它通常与自动补全功能结合使用。

应用场景：

前缀索引适用于需要进行前缀搜索的场景，例如：

搜索框的自动补全： 用户输入关键词的前几个字母，自动提示可能的搜索词。
电话号码簿： 用户输入电话号码的前几位，快速找到匹配的联系人。

第三幕：倒排索引 vs 前缀索引——双剑合璧，天下无敌

现在，咱们来对比一下倒排索引和前缀索引：

特性	倒排索引	前缀索引
搜索类型	全文搜索、精确匹配	前缀搜索、模糊匹配
索引体积	较大	较大 (取决于词语长度)
查询速度	较快	相对较慢
实现复杂度	较高	较低
适用场景	需要全文搜索的场景	需要前缀搜索的场景

可以看到，倒排索引和前缀索引各有优缺点。那么，在实际应用中，我们应该如何选择呢？

答案是：根据实际需求选择，或者两者结合使用！

如果需要进行全文搜索，那就选择倒排索引。
如果需要进行前缀搜索，那就选择前缀索引。
如果需要同时支持全文搜索和前缀搜索，那就同时使用倒排索引和前缀索引。

在RediSearch里，我们可以通过不同的参数来配置索引类型，例如：

FT.CREATE my_index SCHEMA text WEIGHT 1.0

这个命令创建了一个名为 my_index 的索引，类型为 TEXT，表示使用倒排索引。

FT.CREATE my_index SCHEMA name TEXT WEIGHT 1.0 PHONETIC dm:en

这个命令创建了一个可以进行语音匹配的索引，也可以认为是前缀索引的一种变体。

最佳实践：

合理选择分词器： 分词器决定了如何将文档内容拆分成词语，不同的分词器会对索引效果产生影响。
优化停用词列表： 停用词是指那些在搜索中没有意义的词语，例如 "the", "a", "is" 等。将这些词语从索引中移除，可以减少索引体积，提高查询效率。
定期更新索引： 当文档内容发生变化时，需要及时更新索引，以保证搜索结果的准确性。
监控索引性能： 定期监控索引的性能指标，例如索引体积、查询速度等，及时发现并解决问题。

第四幕：实战演练——用RediSearch打造智能搜索系统

光说不练假把式，咱们来个实战演练，用RediSearch打造一个简单的智能搜索系统。

需求：

支持全文搜索商品名称和描述。
支持自动补全商品名称。

步骤：

安装RediSearch： 根据RediSearch的官方文档进行安装。
创建索引：

FT.CREATE product_index SCHEMA name TEXT WEIGHT 5.0 PHONETIC dm:en, description TEXT WEIGHT 1.0

这个命令创建了一个名为 product_index 的索引，包含两个字段：name 和 description。name 字段的权重为 5.0，表示在搜索时，name 字段的匹配结果会比 description 字段的匹配结果更重要。PHONETIC dm:en 表示对 name 字段进行语音匹配，用于实现自动补全功能。

添加商品数据：

HSET product:1 name "Apple iPhone 14 Pro Max" description "The latest iPhone with a powerful A16 chip and a stunning Super Retina XDR display."
HSET product:2 name "Samsung Galaxy S23 Ultra" description "A premium Android phone with a 200MP camera and a long-lasting battery."
HSET product:3 name "Google Pixel 7 Pro" description "A smart and secure phone with a powerful Google Tensor G2 chip and a fantastic camera."

进行搜索：

FT.SEARCH product_index "iPhone"
FT.SEARCH product_index "Samsung camera"
FT.SEARCH product_index "Google smart"

实现自动补全：

可以使用RediSearch的 FT.SUGADD 和 FT.SUGGET 命令来实现自动补全功能。

FT.SUGADD product_suggestions "Apple iPhone 14 Pro Max" 1
FT.SUGADD product_suggestions "Samsung Galaxy S23 Ultra" 2
FT.SUGADD product_suggestions "Google Pixel 7 Pro" 3

FT.SUGGET product_suggestions "iPh"

这个例子只是一个简单的演示，实际应用中还需要考虑更多的因素，例如：

用户体验： 如何设计搜索结果的展示方式，如何提高自动补全的准确性。
性能优化： 如何优化索引结构，如何提高查询效率。
安全性： 如何防止SQL注入等安全问题。

尾声：索引，永无止境的优化之路

各位看官，今天的RediSearch索引策略脱口秀就到这里了。希望通过今天的讲解，大家对倒排索引和前缀索引有了更深入的了解。

索引的优化是一个永无止境的过程，需要不断学习和实践，才能找到最适合自己应用场景的索引策略。记住，没有最好的索引，只有最合适的索引！

最后，祝大家在数据海洋里捞针愉快！?

发表回复 取消回复

发表回复取消回复