Node.js 中的 Worker Threads 模块如何与主线程通信？Transferable Objects 在其中扮演什么角色？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Node.js Worker Threads 通信机制深度剖析：Transferable Objects 的妙用

大家好，我是你们的老朋友，今天咱们来聊聊 Node.js 里一个相当酷炫的模块——Worker Threads。这玩意儿能让你的 Node.js 应用摆脱单线程的束缚，真正实现并行计算，榨干 CPU 的每一滴汗水。但线程多了，问题也来了：这些线程之间怎么打情骂俏（通信）呢？这就是咱们今天要重点研究的课题。

为什么需要 Worker Threads？

在深入通信机制之前，先简单回顾一下为什么要用 Worker Threads。Node.js 以其单线程、非阻塞 I/O 的事件循环模型闻名，这使得它在处理 I/O 密集型任务时表现出色。然而，当遇到 CPU 密集型任务，比如复杂的计算、图像处理、加密解密等，单线程就会成为瓶颈，导致整个应用阻塞卡顿。

想象一下，你是一位餐厅服务员（Node.js 主线程），擅长快速上菜（I/O 操作），但如果突然来了个客人要你手磨咖啡豆（CPU 密集型任务），你一个人又磨豆子又上菜，肯定手忙脚乱，其他客人也得等着。

Worker Threads 就相当于餐厅里新来的几个帮厨，可以帮你磨咖啡豆，这样你就能专心上菜，提高整个餐厅的效率。

Worker Threads 如何工作？

Worker Threads 模块允许你在 Node.js 应用中创建多个独立的 JavaScript 执行线程（Worker）。每个 Worker 都有自己的 JavaScript 虚拟机（V8 引擎实例）和内存空间，可以并行执行代码。

主线程（也称为 Main Thread 或 Parent Thread）负责创建和管理 Worker 线程，并将任务分配给它们。Worker 线程执行完任务后，可以将结果返回给主线程。

通信方式：Message Passing

Worker Threads 之间主要的通信方式是消息传递（Message Passing）。简单来说，就是通过 postMessage() 方法发送消息，通过 on('message') 事件监听消息。

postMessage(value[, transferList]): 用于发送消息。value 是要发送的数据，可以是任何 JavaScript 值（包括对象、数组等）。transferList 是一个可选的数组，用于指定要转移所有权的 Transferable 对象。后面我们会详细讲解 Transferable 对象。
on('message', (value) => { ... }): 用于监听接收到的消息。value 是接收到的数据。

代码示例：

主线程 (main.js):

const { Worker } = require('worker_threads');

const worker = new Worker('./worker.js');

worker.on('message', (message) => {
  console.log('主线程收到消息:', message);
});

worker.postMessage({ task: '计算斐波那契数列', number: 40 });

console.log('主线程继续执行其他任务...');

Worker 线程 (worker.js):

const { parentPort } = require('worker_threads');

function fibonacci(n) {
  if (n <= 1) {
    return n;
  }
  return fibonacci(n - 1) + fibonacci(n - 2);
}

parentPort.on('message', (message) => {
  console.log('Worker 线程收到消息:', message);
  if (message.task === '计算斐波那契数列') {
    const result = fibonacci(message.number);
    parentPort.postMessage({ result: result });
  }
});

在这个例子中，主线程创建了一个 Worker 线程，并向其发送了一个包含任务信息的对象。Worker 线程接收到消息后，执行斐波那契数列的计算，并将结果返回给主线程。

运行结果：

主线程继续执行其他任务...
Worker 线程收到消息: { task: '计算斐波那契数列', number: 40 }
主线程收到消息: { result: 102334155 }

注意事项：

消息传递是异步的，这意味着 postMessage() 方法不会阻塞主线程或 Worker 线程的执行。
消息传递是基于拷贝的（默认情况下），这意味着发送的数据会被复制到接收线程的内存空间中。对于小数据量来说，这种方式可以接受。但如果需要传递大量的数据，复制的开销会非常大，影响性能。这时候，Transferable 对象就派上用场了。

Transferable Objects：零拷贝的秘密武器

Transferable 对象是 Worker Threads 中一种特殊的 JavaScript 对象，它允许你在线程之间转移所有权，而不是复制数据。这意味着，数据的所有权从一个线程转移到另一个线程，原始线程不再拥有该数据的访问权限。这种方式避免了数据的复制，极大地提高了性能。

可以理解为，你家有一辆自行车（数据），你把自行车的钥匙（所有权）给了你的朋友（Worker 线程），以后这辆自行车就是你朋友的了，你再也骑不了了。

哪些对象可以被 Transferable？

以下类型的对象可以被 Transferable:

ArrayBuffer
MessagePort
ImageBitmap
OffscreenCanvas
ReadableStream
WritableStream
TransformStream

代码示例：

主线程 (main.js):

const { Worker } = require('worker_threads');

const buffer = new ArrayBuffer(1024 * 1024 * 100); // 100MB
const worker = new Worker('./worker.js');

worker.on('message', (message) => {
  console.log('主线程收到消息:', message);
  console.log('主线程还可以访问 ArrayBuffer 吗?', buffer.byteLength); // 输出 0，表示无法访问
});

worker.postMessage({ buffer: buffer }, [buffer]); // transferList 中指定 buffer

console.log('主线程发送了 ArrayBuffer, 长度为:', buffer.byteLength); // 输出 0，表示 buffer 的所有权已被转移

Worker 线程 (worker.js):

const { parentPort } = require('worker_threads');

parentPort.on('message', (message) => {
  console.log('Worker 线程收到消息:', message);
  const buffer = message.buffer;
  console.log('Worker 线程收到的 ArrayBuffer 长度:', buffer.byteLength); // 输出 104857600 (100MB)

  // 修改 ArrayBuffer 的内容
  const view = new Uint8Array(buffer);
  for (let i = 0; i < view.length; i++) {
    view[i] = i % 256;
  }

  parentPort.postMessage('ArrayBuffer 处理完成');
});

在这个例子中，主线程创建了一个 100MB 的 ArrayBuffer，并通过 transferList 将其所有权转移给了 Worker 线程。在主线程执行 postMessage() 后，buffer.byteLength 的值变为 0，表示该 ArrayBuffer 的所有权已经转移。 Worker 线程接收到 ArrayBuffer 后，可以对其进行修改，而主线程无法再访问它。

Transferable 对象的工作原理：

Transferable 对象之所以能够实现零拷贝，是因为它们在线程之间传递的不是数据本身，而是数据的内存地址。当一个线程将一个 Transferable 对象的所有权转移给另一个线程时，它会将该对象的内存地址传递给接收线程。接收线程可以直接通过该内存地址访问数据，而无需进行任何拷贝操作。

Transferable 对象的优势：

性能提升： 避免了大量数据的拷贝，显著提高了性能。
内存效率： 减少了内存占用，尤其是在处理大型数据时。

Transferable 对象的使用场景：

处理大型图像数据
处理大型音频数据
处理大型数值数据
任何需要高效传递大量数据的场景

通信方式对比：Copy vs. Transfer

为了更清晰地理解 Copy 和 Transfer 的区别，我们用一个表格来进行对比：

特性	Copy (默认)	Transfer (使用 Transferable 对象)
数据传输方式	复制数据	转移数据的所有权，不复制数据
性能	较慢，数据量越大，性能越差	极快，几乎零开销
内存占用	占用更多内存，需要额外的内存空间来存储数据的副本	占用更少内存，不需要额外的内存空间
数据访问权限	发送线程和接收线程都可以访问数据	发送线程失去对数据的访问权限，只有接收线程可以访问数据
适用场景	小数据量，或者需要保留原始数据的副本	大数据量，对性能要求高，且不需要保留原始数据的副本

复杂场景：双向通信与多个 Worker 线程

前面的例子都是简单的单向通信。在实际应用中，我们可能需要双向通信，或者创建多个 Worker 线程，并让它们之间相互通信。

双向通信：

双向通信指的是主线程和 Worker 线程可以互相发送消息，并接收对方的消息。实现双向通信非常简单，只需要在主线程和 Worker 线程中都监听 message 事件，并使用 postMessage() 方法发送消息即可。

代码示例：

主线程 (main.js):

const { Worker } = require('worker_threads');

const worker = new Worker('./worker.js');

worker.on('message', (message) => {
  console.log('主线程收到消息:', message);
  if (message.response === 'Worker 已完成') {
    console.log('所有任务完成，退出 Worker 线程');
    worker.terminate(); // 结束worker线程
  }
});

worker.postMessage({ task: '开始任务' });

console.log('主线程继续执行其他任务...');

Worker 线程 (worker.js):

const { parentPort } = require('worker_threads');

parentPort.on('message', (message) => {
  console.log('Worker 线程收到消息:', message);
  if (message.task === '开始任务') {
    // 模拟耗时操作
    setTimeout(() => {
      parentPort.postMessage({ response: 'Worker 已完成' });
    }, 2000);
  }
});

多个 Worker 线程：

在某些情况下，我们可能需要创建多个 Worker 线程来并行处理不同的任务。例如，我们可以创建一个 Worker 池，将任务分配给空闲的 Worker 线程，并在任务完成后回收 Worker 线程。

代码示例：

const { Worker } = require('worker_threads');

const workerCount = 4; // 创建 4 个 Worker 线程
const workers = [];
const tasks = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]; // 10 个任务
let taskIndex = 0;

function createWorker() {
  const worker = new Worker('./worker.js');

  worker.on('message', (message) => {
    console.log(`Worker ${worker.threadId} 完成了任务 ${message.task}`);
    assignTask(worker); // 完成任务后，分配新的任务
  });

  worker.on('exit', (code) => {
    console.log(`Worker ${worker.threadId} 退出，退出码为 ${code}`);
    workers.splice(workers.indexOf(worker), 1); // 从 Worker 池中移除
    if (workers.length === 0 && taskIndex === tasks.length) {
      console.log('所有任务完成');
    }
  });

  workers.push(worker);
  return worker;
}

function assignTask(worker) {
  if (taskIndex < tasks.length) {
    const task = tasks[taskIndex++];
    worker.postMessage({ task: task });
  } else {
    // 没有任务可分配，结束 Worker 线程
    worker.terminate();
  }
}

// 创建 Worker 池
for (let i = 0; i < workerCount; i++) {
  const worker = createWorker();
  assignTask(worker); // 分配初始任务
}

Worker 线程 (worker.js):

const { parentPort } = require('worker_threads');

parentPort.on('message', (message) => {
  const task = message.task;
  // 模拟耗时操作
  setTimeout(() => {
    parentPort.postMessage({ task: task });
  }, 1000);
});

线程安全：共享数据与锁

由于 Worker Threads 拥有独立的内存空间，因此它们之间不能直接访问共享数据。如果多个 Worker 线程需要访问共享数据，我们需要使用一些线程安全的机制，例如：

SharedArrayBuffer: 允许在多个 Worker 线程之间共享一块内存区域。需要配合 Atomics API 来实现原子操作，避免数据竞争。
MessagePort: 可以创建消息通道，允许在多个线程之间传递消息。
锁 (Locks): 可以使用 Atomics API 实现锁机制，保护共享数据的访问。

注意事项：

使用 SharedArrayBuffer 需要特别小心，因为不正确的同步可能会导致数据竞争和死锁。
尽量避免在多个线程之间共享可变状态，以减少线程安全问题的发生。

总结

Worker Threads 模块为 Node.js 应用带来了真正的并行计算能力。通过 postMessage() 和 on('message') 方法，我们可以实现线程之间的消息传递。而 Transferable 对象则为我们提供了一种高效的数据传输方式，避免了大量数据的拷贝。在使用 Worker Threads 时，需要注意线程安全问题，并使用适当的同步机制来保护共享数据的访问。

希望今天的讲座能帮助大家更好地理解 Node.js Worker Threads 的通信机制，并在实际项目中灵活运用。记住，多线程编程是一把双刃剑，在带来性能提升的同时，也增加了代码的复杂性。只有充分理解其原理，才能真正发挥它的威力。下次再见!

Node.js Worker Threads 通信机制深度剖析：Transferable Objects 的妙用

为什么需要 Worker Threads？

Worker Threads 如何工作？

通信方式：Message Passing

Transferable Objects：零拷贝的秘密武器

通信方式对比：Copy vs. Transfer

复杂场景：双向通信与多个 Worker 线程

线程安全：共享数据与锁

总结

发表回复 取消回复

发表回复取消回复