Redis 字符串（String）的编码优化：`int`、`embstr`、`raw` 类型转换与内存占用 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，各位编程界的泥腿子们，欢迎来到今晚的“Redis String 奇妙夜”！我是你们的老朋友，江湖人称“代码界的段子手”——老码。今晚，咱们不聊风花雪月，就来扒一扒 Redis 中 String 类型的那些事儿，特别是它那三个让人捉摸不定的编码方式：int、embstr 和 raw。

准备好了吗？系好安全带，咱们要开车了！🚗

第一章：String，你这个磨人的小妖精！

Redis 作为一个高性能的键值对数据库，其 String 类型可以说是最基础，也是最常用的数据类型之一。它就像我们编程世界里的砖头，可以用来盖房子，也可以用来糊墙（当然，糊墙这种事儿，咱们程序员一般是不屑于做的，对吧？）。

String 类型可以存储各种各样的数据，比如：

文本信息： 用户的昵称、商品描述、文章内容等等，这些都是 String 的拿手好戏。
数字信息： 用户的年龄、商品的库存、文章的点击量等等，String 也能轻松胜任。
二进制信息： 图片、视频等文件的内容，String 照样可以存储，只不过需要进行一些编码转换。

但是，String 并不是那么简单，它内部的实现可比咱们想象的要复杂得多。为了更好地利用内存，提高性能，Redis 给 String 类型设计了三种不同的编码方式，也就是我们今天要重点讲解的 int、embstr 和 raw。

第二章：int，小身材，大能量！

首先登场的是 int 编码。顾名思义，这种编码方式专门用来存储整数值。当 Redis 发现你存储的 String 值是一个整数，并且这个整数可以用 long 类型表示时，它就会毫不犹豫地选择 int 编码。

typedef struct redisObject {
    unsigned type:4;
    unsigned encoding:4;
    unsigned lru:LRU_BITS; /* LRU (least recently used) or LFU (least frequently used) counter, not really age when LRU is used. */
    int refcount;
    void *ptr;
} robj;

在这种情况下，Redis 会直接把整数值保存在 redisObject 结构体的 ptr 字段中，而不再分配额外的内存空间。

这就像什么呢？就像你把钥匙直接放在口袋里，而不是专门找个盒子来装。省时省力，效率杠杠的！💪

int 编码的优点：

节省内存： 不需要额外的内存分配，直接利用 redisObject 结构体自身的空间。
速度快： 直接读取 ptr 字段的值，避免了额外的内存访问。

int 编码的缺点：

只能存储整数： 如果你存储的不是整数，或者整数超出了 long 类型的范围，那就只能换其他编码方式了。
功能有限： 只能进行简单的数值操作，比如自增、自减等。

举个栗子：

redis> SET mynumber 123
OK
redis> OBJECT ENCODING mynumber
"int"

在这个例子中，我们将整数 123 存储到键 mynumber 中，Redis 毫不犹豫地选择了 int 编码。

第三章：embstr，紧凑型小能手！

接下来，我们来认识一下 embstr 编码。这种编码方式是一种专门用于存储短字符串的优化方式。当 Redis 发现你存储的 String 值是一个长度小于等于 44 字节的字符串时，它就有可能选择 embstr 编码。（Redis 3.2 版本之前是 39 字节）

embstr 编码的特点是：它会将 redisObject 结构体和 SDS (Simple Dynamic String) 结构体分配在同一块连续的内存空间中。

// SDS结构体
struct sdshdr {
    int len;      // 记录buf数组中已使用字节的数量，即SDS所保存字符串的长度
    int free;     // 记录buf数组中未使用字节的数量
    char buf[];   // 字节数组，用于保存字符串
};

// redisObject结构体（简化版）
typedef struct redisObject {
    unsigned type:4;
    unsigned encoding:4;
    void *ptr; // 指向SDS结构体
} robj;

这就像什么呢？就像你把钥匙和钥匙扣做成一体，而不是分开存放。减少了内存碎片，提高了缓存命中率。😎

embstr 编码的优点：

节省内存： 将 redisObject 和 SDS 结构体分配在同一块连续的内存空间中，减少了内存碎片的产生。
速度快： 由于数据存储在连续的内存空间中，可以更快地访问和修改字符串。

embstr 编码的缺点：

只能存储短字符串： 如果你存储的字符串长度超过 44 字节，那就只能换其他编码方式了。
修改后可能会变成 raw 编码： 如果你对 embstr 编码的字符串进行修改，导致字符串长度超过 44 字节，Redis 就会将其转换为 raw 编码。

举个栗子：

redis> SET myshortstring "hello world"
OK
redis> OBJECT ENCODING myshortstring
"embstr"

在这个例子中，我们将字符串 "hello world" 存储到键 myshortstring 中，Redis 选择了 embstr 编码。

第四章：raw，老大哥，啥都能装！

最后，我们来认识一下 raw 编码。这种编码方式是 String 类型的默认编码方式，也是最通用的编码方式。当 Redis 发现你存储的 String 值是一个长度超过 44 字节的字符串，或者你对 embstr 编码的字符串进行了修改，导致字符串长度超过 44 字节时，它就会选择 raw 编码。

raw 编码的特点是：redisObject 结构体和 SDS 结构体分别分配在不同的内存空间中，redisObject 结构体的 ptr 字段指向 SDS 结构体的地址。

这就像什么呢？就像你把钥匙和钥匙扣分开存放，需要的时候再把它们组合起来。虽然稍微麻烦一点，但是灵活性更高。🧐

raw 编码的优点：

可以存储任意长度的字符串： 没有长度限制，想存多长就存多长。
灵活性高： 可以进行各种各样的字符串操作。

raw 编码的缺点：

占用内存较多： 需要分配额外的内存空间来存储 SDS 结构体。
速度相对较慢： 需要通过 ptr 字段来访问 SDS 结构体，增加了内存访问的次数。

举个栗子：

redis> SET mylongstring "This is a very long string that exceeds 44 bytes."
OK
redis> OBJECT ENCODING mylongstring
"raw"

在这个例子中，我们将一个长度超过 44 字节的字符串存储到键 mylongstring 中，Redis 选择了 raw 编码。

第五章：编码转换，变幻莫测！

String 类型的编码方式并不是一成不变的，Redis 会根据实际情况进行动态转换。

int -> embstr or raw: 当对 int 编码的字符串进行非数值操作时，例如追加字符串，它可能会转换为 embstr 或 raw 编码。
embstr -> raw: 当对 embstr 编码的字符串进行修改，导致字符串长度超过 44 字节时，它会转换为 raw 编码。
raw -> int or embstr: 这种情况比较少见，通常只有在对 raw 编码的字符串进行删除操作，导致字符串长度变为 0，并且字符串可以表示为整数时，才有可能转换为 int 编码。实际上，Redis 很少会为了节省内存而主动将 raw 或 embstr 转换为 int。

敲黑板，划重点！ 记住，编码转换是一个不可逆的过程，一旦转换为 raw 编码，就很难再回到 int 或 embstr 编码了。

第六章：内存占用，精打细算！

了解了 String 类型的编码方式，我们再来聊聊内存占用。这可是关系到咱们的钱包啊！💰

不同的编码方式，内存占用也不同。一般来说：

int 编码： 占用内存最少，只需要 redisObject 结构体的空间。
embstr 编码： 占用内存较少，将 redisObject 和 SDS 结构体分配在同一块连续的内存空间中。
raw 编码： 占用内存最多，需要分配额外的内存空间来存储 SDS 结构体。

因此，我们在使用 String 类型时，要尽量选择合适的编码方式，以节省内存空间。

第七章：实战演练，手把手教学！

光说不练假把式，接下来，咱们来做几个实战演练，巩固一下今天所学的知识。

案例一：存储用户 ID

假设我们要存储用户的 ID，用户 ID 通常是一个整数。

redis> SET userid 123456
OK
redis> OBJECT ENCODING userid
"int"

在这种情况下，选择 int 编码是最合适的，因为它既节省内存，又速度快。

案例二：存储用户昵称

假设我们要存储用户的昵称，用户昵称通常是一个短字符串。

redis> SET nickname "Tom"
OK
redis> OBJECT ENCODING nickname
"embstr"

在这种情况下，选择 embstr 编码也是不错的选择，它可以减少内存碎片，提高缓存命中率。

案例三：存储文章内容

假设我们要存储文章的内容，文章内容通常是一个长字符串。

redis> SET article "This is a very long article..."
OK
redis> OBJECT ENCODING article
"raw"

在这种情况下，我们只能选择 raw 编码，因为它支持存储任意长度的字符串。

第八章：优化建议，锦上添花！

最后，我给大家提几点优化建议，帮助大家更好地使用 Redis String 类型。

尽量使用整数： 如果你的数据可以表示为整数，尽量使用整数类型，Redis 会自动选择 int 编码，节省内存。
控制字符串长度： 如果你的数据是字符串，尽量控制字符串的长度，避免使用过长的字符串，以减少内存占用。
避免频繁修改： 尽量避免频繁修改 embstr 编码的字符串，因为每次修改都可能导致编码转换，增加开销。
合理使用压缩： 对于较大的字符串，可以考虑使用压缩算法进行压缩，以减少内存占用。

第九章：总结，划上完美的句号！

好了，各位观众老爷，今晚的“Redis String 奇妙夜”就到这里了。我们一起学习了 Redis String 类型的三种编码方式：int、embstr 和 raw，了解了它们的特点、优缺点以及编码转换的过程。希望今天的讲解能够帮助大家更好地理解 Redis String 类型，并在实际应用中灵活运用。

记住，编程的世界是充满乐趣的，只要我们不断学习，不断探索，就能成为一名优秀的程序员！

感谢大家的观看，我们下期再见！👋

发表回复 取消回复

发表回复取消回复