阐述 Node.js 中的 Cluster 模块如何通过多进程来利用多核 CPU，并解释其 IPC (进程间通信) 机制。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好嘞，诸位！今天咱们就来聊聊 Node.js 里那个能让你的服务器“腰不酸了，腿不疼了，一口气能处理更多请求”的 Cluster 模块。别看它名字叫“集群”，其实它干的活儿更像是一个团队的“分工合作”，让你的 Node.js 应用充分利用多核 CPU，提升性能。

一、为啥需要 Cluster？

首先，我们要搞清楚一个概念：Node.js 默认是单线程的。啥意思呢？就是说，即使你的服务器有 8 个 CPU 核心，默认情况下，Node.js 也就只会用其中一个核心吭哧吭哧地干活。其他的核心就只能在那儿干瞪眼，感觉像不像你辛辛苦苦考上了清华，结果只能在宿舍打游戏？

这显然是对资源的极大浪费。当你的应用需要处理大量的并发请求时，单线程的 Node.js 很容易成为瓶颈。想象一下，一个餐厅只有一个服务员，客人一多，肯定忙不过来，要排队，用户体验极差。

那么，怎么解决这个问题呢？答案就是：多进程！让 Node.js 启动多个进程，每个进程都跑一份你的应用代码，这样就能同时利用多个 CPU 核心，提高并发处理能力。这就像餐厅里多了几个服务员，可以同时服务更多的客人。

这就是 Cluster 模块存在的意义：它可以让你轻松地创建和管理多个 Node.js 进程，实现多进程并发。

二、Cluster 模块的基本原理

Cluster 模块的核心思想是：一个“主进程”负责创建和管理多个“工作进程”。

主进程 (Master Process)： 负责监听端口，接收客户端请求，并将请求分配给工作进程处理。它也负责监控工作进程的状态，如果某个工作进程挂掉了，主进程可以自动重启一个新的工作进程。你可以把它想象成餐厅的经理，负责接待客人，安排座位，以及处理突发状况。
工作进程 (Worker Process)： 负责实际处理客户端请求。每个工作进程都运行着一份你的 Node.js 应用代码。当工作进程处理完请求后，会将响应返回给客户端。你可以把它想象成餐厅的服务员，负责点餐、上菜、收钱。

主进程和工作进程之间通过 IPC (Inter-Process Communication，进程间通信) 机制进行通信，传递请求和响应数据。

三、Cluster 模块的使用方法

下面我们来看一个简单的例子，演示如何使用 Cluster 模块创建一个多进程 Node.js 应用：

const cluster = require('cluster');
const http = require('http');
const os = require('os');

const numCPUs = os.cpus().length; // 获取 CPU 核心数

if (cluster.isMaster) { // 判断当前进程是否是主进程
  console.log(`主进程 ${process.pid} 正在运行`);

  // 根据 CPU 核心数创建工作进程
  for (let i = 0; i < numCPUs; i++) {
    cluster.fork(); // 创建一个新的工作进程
  }

  // 监听工作进程的退出事件
  cluster.on('exit', (worker, code, signal) => {
    console.log(`工作进程 ${worker.process.pid} 退出`);
    console.log('重新启动一个工作进程');
    cluster.fork(); // 重新启动一个新的工作进程
  });
} else { // 当前进程是工作进程
  // 创建一个简单的 HTTP 服务器
  http.createServer((req, res) => {
    res.writeHead(200);
    res.end(`你好世界！我是工作进程 ${process.pid}`);
    console.log(`工作进程 ${process.pid} 处理了一个请求`);
  }).listen(8000);

  console.log(`工作进程 ${process.pid} 已启动`);
}

代码解释：

引入模块： 首先，我们引入了 cluster、http 和 os 三个模块。os 模块用于获取 CPU 核心数。
获取 CPU 核心数： 使用 os.cpus().length 获取 CPU 核心数，并将其存储在 numCPUs 变量中。
判断是否是主进程： 使用 cluster.isMaster 判断当前进程是否是主进程。如果是主进程，则执行主进程的逻辑；否则，执行工作进程的逻辑。
主进程逻辑：
- 打印主进程的 PID (进程 ID)。
- 使用 for 循环创建 numCPUs 个工作进程。cluster.fork() 方法会创建一个新的工作进程，并执行当前脚本。
- 监听 exit 事件。当工作进程退出时，会触发 exit 事件。在事件处理函数中，我们打印工作进程的 PID，并重新启动一个新的工作进程，以保证始终有 numCPUs 个工作进程在运行。
工作进程逻辑：
- 创建一个简单的 HTTP 服务器，监听 8000 端口。
- 当收到客户端请求时，服务器会返回 "你好世界！我是工作进程 ${process.pid}"，并打印工作进程的 PID。
- 打印工作进程的 PID，表示工作进程已启动。

运行这个例子：

将代码保存为 cluster_example.js。
在命令行中运行 node cluster_example.js。

你会看到类似以下的输出：

主进程 12345 正在运行
工作进程 12346 已启动
工作进程 12347 已启动
工作进程 12348 已启动
工作进程 12349 已启动

(假设你的电脑有 4 个 CPU 核心)

然后，在浏览器中访问 http://localhost:8000，你会看到 "你好世界！我是工作进程 ${process.pid}"，其中 ${process.pid} 是一个工作进程的 PID。每次刷新页面，你可能会看到不同的 PID，这说明不同的工作进程正在处理你的请求。

四、Cluster 模块的 IPC 机制

主进程和工作进程之间需要进行通信，才能完成请求的分配和响应的返回。Cluster 模块提供了 IPC 机制，用于实现进程间通信。

Cluster 模块的 IPC 机制基于操作系统提供的管道 (pipe) 或 Unix 域套接字 (Unix domain socket) 实现。主进程和工作进程之间会建立一个双向通信通道，通过这个通道可以传递消息。

Cluster 模块提供了以下几种 IPC 通信方式：

共享端口： 这是 Cluster 模块默认的通信方式。主进程监听一个端口，当收到客户端请求时，会将请求转发给一个空闲的工作进程处理。工作进程处理完请求后，直接将响应返回给客户端，不需要经过主进程。这种方式性能较高，但只适用于 HTTP、HTTPS 等基于 TCP 的协议。
发送消息： 主进程和工作进程可以通过 worker.send(message) 和 process.on('message', (message) => { ... }) 方法发送和接收消息。这种方式更加灵活，可以传递任意类型的数据，但性能相对较低。

共享端口的原理：

当主进程创建一个工作进程时，会将监听的端口信息传递给工作进程。工作进程会使用操作系统提供的 SO_REUSEADDR 选项，允许多个进程监听同一个端口。

当客户端发起一个请求时，操作系统会将请求随机分配给一个监听该端口的进程。由于所有工作进程都在监听同一个端口，因此请求会被分配给一个空闲的工作进程处理。

发送消息的例子：

// 主进程
if (cluster.isMaster) {
  const worker = cluster.fork();

  // 监听工作进程的消息
  worker.on('message', (message) => {
    console.log(`主进程收到消息：${message.content}`);
  });

  // 向工作进程发送消息
  worker.send({ content: '你好，工作进程！' });
} else {
  // 工作进程

  // 监听主进程的消息
  process.on('message', (message) => {
    console.log(`工作进程收到消息：${message.content}`);

    // 向主进程发送消息
    process.send({ content: '你好，主进程！' });
  });
}

代码解释：

主进程：
- 创建工作进程。
- 监听工作进程的消息。当收到工作进程发送的消息时，打印消息内容。
- 向工作进程发送消息。
工作进程：
- 监听主进程的消息。当收到主进程发送的消息时，打印消息内容，并向主进程发送消息。

运行这个例子，你会看到类似以下的输出：

工作进程收到消息：你好，主进程！
主进程收到消息：你好，工作进程！

五、Cluster 模块的负载均衡策略

当有多个工作进程时，主进程需要决定将请求分配给哪个工作进程处理。Cluster 模块提供了两种负载均衡策略：

Round Robin (轮询)： 这是 Cluster 模块默认的负载均衡策略。主进程按照顺序将请求分配给工作进程。例如，如果有 4 个工作进程，则第一个请求分配给第一个工作进程，第二个请求分配给第二个工作进程，以此类推，直到第四个请求分配给第四个工作进程，然后又回到第一个工作进程。
IP Hash： 主进程根据客户端的 IP 地址计算出一个哈希值，然后将哈希值与工作进程的数量取模，得到一个工作进程的索引。这样，来自同一个 IP 地址的请求总是会被分配给同一个工作进程处理。这种方式可以保证会话的粘性 (session affinity)，适用于需要维护用户状态的应用。

如何选择负载均衡策略：

如果你的应用是无状态的，或者不需要维护用户状态，则可以使用 Round Robin 策略。
如果你的应用需要维护用户状态，则可以使用 IP Hash 策略。

如何设置负载均衡策略：

可以通过设置 cluster.schedulingPolicy 属性来设置负载均衡策略。

cluster.schedulingPolicy = cluster.SCHED_RR：使用 Round Robin 策略。
cluster.schedulingPolicy = cluster.SCHED_NONE：使用 IP Hash 策略。 (注意：在 Node.js 16 之前，cluster.SCHED_NONE 实际上是 Round Robin 策略。在 Node.js 16 及之后的版本中，cluster.SCHED_NONE 才是 IP Hash 策略。建议使用 cluster.SCHED_RR 和 cluster.SCHED_NONE 来明确指定负载均衡策略)

例子：

const cluster = require('cluster');
const http = require('http');
const os = require('os');

const numCPUs = os.cpus().length;

// 设置负载均衡策略为 IP Hash
cluster.schedulingPolicy = cluster.SCHED_NONE;

if (cluster.isMaster) {
  console.log(`主进程 ${process.pid} 正在运行`);

  for (let i = 0; i < numCPUs; i++) {
    cluster.fork();
  }

  cluster.on('exit', (worker, code, signal) => {
    console.log(`工作进程 ${worker.process.pid} 退出`);
    console.log('重新启动一个工作进程');
    cluster.fork();
  });
} else {
  http.createServer((req, res) => {
    res.writeHead(200);
    res.end(`你好世界！我是工作进程 ${process.pid}`);
    console.log(`工作进程 ${process.pid} 处理了一个请求`);
  }).listen(8000);

  console.log(`工作进程 ${process.pid} 已启动`);
}

六、Cluster 模块的优点和缺点

优点：

充分利用多核 CPU： 可以让你的 Node.js 应用充分利用多核 CPU，提高并发处理能力。
提高应用的可用性： 当某个工作进程挂掉时，主进程可以自动重启一个新的工作进程，保证应用的可用性。
简化开发： Cluster 模块封装了多进程编程的复杂性，让你可以轻松地创建和管理多个 Node.js 进程。

缺点：

增加内存消耗： 每个工作进程都需要一份你的应用代码，因此会增加内存消耗。
调试困难： 多进程应用的调试比单进程应用更加困难。
状态共享困难： 工作进程之间是相互隔离的，因此状态共享比较困难。需要使用外部存储 (例如 Redis) 或 IPC 机制来实现状态共享。
代码热更新需要重启所有进程： 当你修改了代码后，需要重启所有工作进程才能生效。可以使用类似 nodemon 的工具来简化代码热更新的过程。

七、Cluster 模块的最佳实践

合理设置工作进程的数量： 工作进程的数量应该根据你的 CPU 核心数和应用的负载情况来确定。一般来说，工作进程的数量等于 CPU 核心数是一个不错的选择。但是，如果你的应用是 I/O 密集型的，则可以适当增加工作进程的数量。
使用专业的进程管理工具： 建议使用像 PM2 或 Forever 这样的专业的进程管理工具来管理你的 Node.js 应用。这些工具可以提供更多的功能，例如自动重启、日志管理、监控等。
避免在工作进程中存储状态： 尽量避免在工作进程中存储状态。如果需要存储状态，可以使用外部存储 (例如 Redis) 或 IPC 机制来实现状态共享。
使用日志库： 使用像 Winston 或 Bunyan 这样的日志库来记录你的应用的日志。这样可以方便你进行调试和故障排除。
监控你的应用： 使用像 Prometheus 或 Grafana 这样的监控工具来监控你的应用的性能指标。这样可以及时发现和解决问题。

八、一些常见的面试问题

问题	答案
Node.js 是单线程的，为什么还要使用 Cluster？	Node.js 默认是单线程的，这意味着它只能利用一个 CPU 核心。即使服务器有多个 CPU 核心，Node.js 也只能使用一个。使用 Cluster 模块可以创建多个 Node.js 进程，每个进程都运行一份你的应用代码，这样就能同时利用多个 CPU 核心，提高并发处理能力。
Cluster 模块的工作原理是什么？	Cluster 模块的核心思想是：一个“主进程”负责创建和管理多个“工作进程”。主进程监听端口，接收客户端请求，并将请求分配给工作进程处理。工作进程负责实际处理客户端请求。主进程和工作进程之间通过 IPC (进程间通信) 机制进行通信，传递请求和响应数据。
Cluster 模块有哪些负载均衡策略？	Cluster 模块提供了两种负载均衡策略：Round Robin (轮询) 和 IP Hash。Round Robin 策略按照顺序将请求分配给工作进程。IP Hash 策略根据客户端的 IP 地址计算出一个哈希值，然后将哈希值与工作进程的数量取模，得到一个工作进程的索引。来自同一个 IP 地址的请求总是会被分配给同一个工作进程处理。
如何选择负载均衡策略？	如果你的应用是无状态的，或者不需要维护用户状态，则可以使用 Round Robin 策略。如果你的应用需要维护用户状态，则可以使用 IP Hash 策略。
Cluster 模块的优缺点是什么？	优点：充分利用多核 CPU，提高应用的可用性，简化开发。缺点：增加内存消耗，调试困难，状态共享困难，代码热更新需要重启所有进程。

九、总结

Cluster 模块是 Node.js 中一个非常有用的模块，它可以让你轻松地创建和管理多个 Node.js 进程，实现多进程并发，充分利用多核 CPU，提高应用的性能和可用性。虽然使用 Cluster 模块会增加一些复杂性，但它带来的好处是显而易见的。

希望今天的讲座对你有所帮助。下次再见！祝大家编程愉快， Bug 远离！

发表回复 取消回复

发表回复取消回复