Redis CPU 占用过高：定位热点、慢查询与多线程模型分析 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位Redis爱好者，大家好！今天咱们来聊聊一个让不少人头疼的问题：Redis的CPU占用率飙升。这玩意儿就像你家里的水管突然爆了，不赶紧解决，迟早要淹没整个系统。

别怕，咱们今天就一起抽丝剥茧，找出罪魁祸首，然后对症下药。咱们的目标是：让你的Redis跑得飞快，CPU稳如老狗！

第一步：知己知彼，了解Redis的CPU占用情况

首先，你要知道Redis的CPU占用率到底是什么情况。是偶尔抽风，还是长期高居不下？你需要一些工具来监控它。

top 命令： 这是个老朋友了，在Linux服务器上直接输入 top，就能看到各个进程的CPU占用情况。找到redis-server进程，看它的%CPU值。
redis-cli info stats 命令： 这个命令可以获取Redis的各种统计信息，包括CPU使用情况。关注used_cpu_sys、used_cpu_user和used_cpu_sys_children这几个指标。
- used_cpu_sys: Redis内核态CPU占用时间。
- used_cpu_user: Redis用户态CPU占用时间。
- used_cpu_sys_children: Redis子进程（如AOF/RDB重写）内核态CPU占用时间。
监控工具： 像Prometheus + Grafana、Zabbix、Datadog等监控工具，可以更直观地展示Redis的CPU占用情况，并设置告警。

第二步：揪出罪魁祸首：定位热点Key和慢查询

CPU占用高，往往是某些操作过于频繁或者耗时过长造成的。我们需要找出这些“坏分子”。

1. 定位热点Key

热点Key指的是被频繁访问的Key。大量的请求都涌向同一个Key，会导致Redis服务器的CPU负载过高。

Redis Monitor命令： 这玩意儿就像一个实时监控器，可以打印出Redis服务器接收到的每一个命令。但是，注意！monitor命令会严重影响Redis性能，所以只能在测试环境或者低峰期使用。
```
redis-cli -p 6379 monitor | grep "your_hot_key"
```
把 your_hot_key 替换成你怀疑的热点Key。

Redis slowlog命令： slowlog记录了执行时间超过指定阈值的命令。通过分析slowlog，可以找出耗时长的命令，进而确定热点Key。

配置slowlog: 在redis.conf文件中配置slowlog-log-slower-than（单位微秒）和slowlog-max-len（slowlog的最大长度）。
查看slowlog: 使用redis-cli slowlog get命令查看slowlog。

redis-cli -p 6379 slowlog get 10  # 获取最近10条慢查询日志

# Python代码读取slowlog并分析
import redis

def analyze_slowlog(host='localhost', port=6379, db=0, count=10):
    r = redis.Redis(host=host, port=port, db=db)
    slowlog = r.slowlog_get(count)
    for log in slowlog:
        timestamp = log['start_time']
        duration = log['duration']
        command = log['command']
        print(f"Timestamp: {timestamp}, Duration: {duration} microseconds, Command: {command}")

if __name__ == "__main__":
    analyze_slowlog()

开源工具： 像Redis Desktop Manager、Redsmin等工具，也提供了热点Key分析功能。

找到热点Key后，就要想办法分散它的访问压力。常见的方法有：

本地缓存： 在应用服务器上缓存热点Key的值，减少对Redis的直接访问。可以使用Guava Cache、Caffeine等本地缓存库。
分布式缓存： 使用Memcached、Redis Cluster等分布式缓存系统，将热点Key分散到多个节点上。
Key拆分： 将一个热点Key拆分成多个Key，降低单个Key的访问频率。例如，可以将一个存储用户信息的Key，拆分成存储用户基本信息的Key和存储用户账户信息的Key。

2. 定位慢查询

慢查询指的是执行时间超过一定阈值的命令。慢查询会阻塞Redis服务器，导致CPU占用率升高。

Redis slowlog命令（如上所述）： 这是定位慢查询的利器。通过分析slowlog，可以找出哪些命令执行时间过长。
```
redis-cli -p 6379 slowlog get 10
```
Redis Profiler： Redis 5.0 引入了 Profiler 功能，可以更详细地分析命令的执行过程。
```
redis-cli -p 6379 profile sample 1000  # 采样1000个命令
redis-cli -p 6379 profile stop
redis-cli -p 6379 profile get
redis-cli -p 6379 profile reset
```
profile sample 命令会随机采样指定数量的命令，并记录它们的执行过程。profile get 命令可以查看采样结果。profile reset 命令可以清空采样结果。

找到慢查询后，就要想办法优化它们。常见的方法有：

优化数据结构： 选择合适的数据结构。例如，如果需要频繁查找元素，可以使用Hash而不是List。
优化命令： 避免使用复杂度高的命令，如KEYS、FLUSHALL等。尽量使用批量操作命令，如MGET、MSET等。
避免大Key： 大Key指的是存储大量数据的Key。操作大Key会消耗大量的CPU资源。应该将大Key拆分成多个小Key。
索引优化： 如果使用了Redis Module，可以考虑使用索引来加速查询。
代码优化： 检查代码是否存在性能问题，例如循环查询Redis等。

第三步：深入底层：Redis单线程模型和多线程优化

Redis是一个单线程的服务器。这意味着，所有的命令都是在一个线程中执行的。虽然单线程模型简化了开发，避免了锁竞争，但也带来了一个问题：如果某个命令执行时间过长，就会阻塞整个服务器。

Redis单线程模型： Redis的单线程模型指的是处理客户端请求的主线程只有一个。所有的读写操作、命令执行、事件处理等都由这个线程完成。
- 优点：
  - 简化开发：避免了多线程并发带来的锁竞争、死锁等问题。
  - 高效：基于内存操作，加上高效的数据结构和事件循环机制，使得Redis的性能非常高。
- 缺点：
  - 单点故障：如果主线程崩溃，整个服务器就无法工作。
  - 阻塞：如果某个命令执行时间过长，就会阻塞整个服务器。
多线程优化（Redis 6.0及以上）： Redis 6.0引入了多线程I/O，用于处理客户端连接和读写操作。但是，命令的执行仍然是单线程的。
- 多线程I/O的意义： 减轻主线程的I/O压力，提高服务器的吞吐量。尤其是在网络带宽较高的情况下，多线程I/O可以更充分地利用网络资源。
- 配置多线程I/O： 在redis.conf文件中配置io-threads和io-threads-do-reads参数。
```
io-threads 4  # 设置I/O线程的数量
io-threads-do-reads yes # 是否使用I/O线程处理读请求
```
- 使用场景： 多线程I/O适用于网络带宽较高，客户端连接数较多的场景。对于CPU密集型应用，多线程I/O的提升可能不明显。

第四步：排查其他因素：AOF/RDB重写、Swap、网络问题

除了热点Key和慢查询，还有一些其他因素可能导致Redis的CPU占用率升高。

AOF/RDB重写： AOF/RDB重写是将Redis的数据持久化到磁盘的操作。这个过程会消耗大量的CPU和I/O资源。
- 优化方法：
  - 调整重写频率：根据业务需求，合理设置auto-aof-rewrite-percentage和auto-aof-rewrite-min-size参数。
  - 使用非高峰期重写：尽量在业务低峰期执行AOF/RDB重写。
  - 使用更快的磁盘：使用SSD磁盘可以提高重写速度。
Swap： 如果Redis服务器使用了Swap，会导致性能急剧下降。应该尽量避免使用Swap。
- 检查Swap使用情况： 使用free -m命令查看Swap的使用情况。
- 禁用Swap： 可以通过修改/etc/sysctl.conf文件禁用Swap。
```
vm.swappiness = 0
```
  然后执行sysctl -p命令使配置生效。
网络问题： 网络延迟、丢包等问题会导致Redis客户端重试，增加Redis服务器的CPU负载。
- 排查方法：
  - 使用ping命令测试网络连通性。
  - 使用tcpdump命令抓包分析网络流量。
  - 检查防火墙设置。

第五步：代码案例

import redis
import time
import random

# 连接Redis
pool = redis.ConnectionPool(host='localhost', port=6379, db=0)
r = redis.Redis(connection_pool=pool)

# 模拟热点Key场景
def simulate_hot_key(key, num_requests):
    start_time = time.time()
    for i in range(num_requests):
        r.get(key)
    end_time = time.time()
    duration = end_time - start_time
    print(f"Hot key '{key}' accessed {num_requests} times in {duration:.4f} seconds")

# 模拟慢查询场景
def simulate_slow_query(key, data_size):
    data = 'A' * data_size  # 创建一个大字符串
    start_time = time.time()
    r.set(key, data)  # 存储大字符串
    end_time = time.time()
    duration = end_time - start_time
    print(f"Slow query: set '{key}' with size {data_size} bytes in {duration:.4f} seconds")

# 使用Pipeline批量操作
def use_pipeline(num_operations):
    start_time = time.time()
    pipe = r.pipeline()
    for i in range(num_operations):
        key = f"pipeline_key_{i}"
        value = random.randint(1, 100)
        pipe.set(key, value)
    pipe.execute()
    end_time = time.time()
    duration = end_time - start_time
    print(f"Pipeline with {num_operations} operations executed in {duration:.4f} seconds")

# 不使用Pipeline的批量操作
def without_pipeline(num_operations):
    start_time = time.time()
    for i in range(num_operations):
        key = f"no_pipeline_key_{i}"
        value = random.randint(1, 100)
        r.set(key, value)
    end_time = time.time()
    duration = end_time - start_time
    print(f"Without pipeline, {num_operations} operations executed in {duration:.4f} seconds")

if __name__ == "__main__":
    # 模拟热点Key
    simulate_hot_key("hot_key", 10000)

    # 模拟慢查询
    simulate_slow_query("big_key", 1024 * 1024)  # 1MB数据

    # 使用Pipeline批量操作
    use_pipeline(1000)

    # 不使用Pipeline的批量操作
    without_pipeline(1000)

    print("Done!")

总结

解决Redis CPU占用过高的问题，需要我们从多个角度进行分析。首先要定位热点Key和慢查询，然后优化数据结构、命令和代码。同时，也要关注AOF/RDB重写、Swap、网络等因素。最后，根据实际情况选择合适的解决方案。

记住，没有一劳永逸的解决方案。我们需要不断地监控、分析和优化，才能让Redis保持最佳状态。

希望今天的分享对大家有所帮助。祝大家Redis用得开心，系统稳如磐石！

发表回复 取消回复

发表回复取消回复