JS `Unified Memory` (WebGPU) 与 CPU/GPU 内存共享模式

各位观众老爷们，大家好！今天咱们来聊聊WebGPU里一个挺有意思的概念——统一内存 (Unified Memory)。这玩意儿听起来玄乎，但其实简单来说，就是让CPU和GPU都能“共享”同一块内存区域。这可不是简简单单的“复制粘贴”，而是真正意义上的“你中有我，我中有你”，数据不用搬来搬去，效率嗖嗖地就上去了！

开场白：为什么我们需要统一内存？

在传统的CPU/GPU架构中，CPU和GPU各自有独立的内存空间。你想让GPU处理点数据，得先把数据从CPU内存拷贝到GPU内存；GPU算完了，想把结果拿给CPU用，还得再拷贝回来。这来回折腾，时间都浪费在数据搬运上了。就像你家住楼上，冰箱在楼下，每次想喝口冰镇可乐，都得跑上跑下，烦不胜烦！

统一内存的出现，就像在你卧室里放了个小冰箱，想喝可乐，伸手就来，省时省力！

什么是统一内存？（不仅仅是共享显存）

很多同学可能会误以为统一内存就是共享显存。虽然共享显存是实现统一内存的一种方式，但统一内存的本质在于虚拟地址空间的共享，以及硬件级别的缓存一致性。也就是说，CPU和GPU看到的内存地址是相同的，而且任何一方对内存的修改，另一方都能立即感知到。

这就像你们合租了一间房子，每个人都有自己的房间，但厨房、客厅是共享的。你在厨房做了顿饭，你室友立刻就能闻到香味，这就是缓存一致性的体现。

WebGPU中的统一内存：Buffer与Binding

在WebGPU中，我们通过Buffer来管理内存，并通过Binding将Buffer绑定到Shader中，让GPU可以访问。WebGPU规范并没有强制要求所有Buffer都必须是统一内存，而是允许驱动程序根据硬件情况和性能优化策略来选择。

Buffer的创建：

const buffer = device.createBuffer({
  size: data.byteLength, // 数据的大小
  usage: GPUBufferUsage.MAP_READ | GPUBufferUsage.MAP_WRITE | GPUBufferUsage.COPY_DST, // Buffer的用途
  mappedAtCreation: true, // 创建时是否映射
});

const arrayBuffer = buffer.getMappedRange();
new Float32Array(arrayBuffer).set(data);
buffer.unmap();

这里GPUBufferUsage指定了Buffer的用途，MAP_READ和MAP_WRITE表示CPU可以读写该Buffer。COPY_DST表示该Buffer可以作为复制的目标。mappedAtCreation: true表示在创建Buffer时就将其映射到CPU可访问的内存空间。

Binding的创建：

const bindGroupLayout = device.createBindGroupLayout({
  entries: [
    {
      binding: 0,
      visibility: GPUShaderStage.COMPUTE,
      buffer: {} // 指定binding类型为buffer
    }
  ]
});

const bindGroup = device.createBindGroup({
  layout: bindGroupLayout,
  entries: [
    {
      binding: 0,
      resource: {
        buffer: buffer
      }
    }
  ]
});

这里我们创建了一个BindGroupLayout，指定了binding 0是一个Buffer。然后我们创建了一个BindGroup，将我们之前创建的Buffer绑定到binding 0。

统一内存的优势：

减少数据拷贝： 这是最直接的优势。CPU和GPU共享内存，避免了频繁的数据拷贝，大大提升了性能。
简化编程模型： 开发者不再需要手动管理CPU和GPU之间的内存同步，降低了编程复杂度。
提高内存利用率： 统一内存可以更灵活地分配和管理内存，避免了内存碎片，提高了内存利用率。

统一内存的劣势：

缓存一致性问题： CPU和GPU同时访问同一块内存时，可能会出现缓存一致性问题。需要硬件和驱动程序来保证数据的一致性。
内存访问冲突： CPU和GPU同时访问同一块内存时，可能会发生内存访问冲突。需要硬件和驱动程序来进行仲裁。
硬件要求高： 实现真正的统一内存需要硬件支持，例如共享虚拟地址空间、缓存一致性机制等。

WebGPU中如何使用统一内存？

在WebGPU中，我们可以通过GPUBufferUsage来指定Buffer的用途，从而影响驱动程序对Buffer的内存分配策略。

GPUBufferUsage.MAP_READ和GPUBufferUsage.MAP_WRITE： 这两个flag表示CPU可以读写该Buffer。如果同时指定了这两个flag，那么驱动程序很可能会将该Buffer分配到CPU可访问的内存空间，从而实现统一内存的效果。
GPUBufferUsage.COPY_SRC和GPUBufferUsage.COPY_DST： 这两个flag表示该Buffer可以作为复制的源或目标。如果只指定了这两个flag，那么驱动程序可能会将该Buffer分配到GPU专用内存，从而获得更好的性能。

案例分析：图像处理

假设我们需要对一张图片进行高斯模糊处理。

传统方法：
- 将图片数据从CPU内存拷贝到GPU内存。
- GPU执行高斯模糊计算。
- 将处理后的图片数据从GPU内存拷贝回CPU内存。
这种方法需要两次数据拷贝，效率较低。
统一内存方法：
- 将图片数据分配到统一内存区域。
- GPU直接访问统一内存区域，执行高斯模糊计算。
- CPU直接访问统一内存区域，获取处理后的图片数据。
这种方法避免了数据拷贝，效率大大提高。

代码示例：

// 获取WebGPU设备
const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();

// 图片数据
const imageData = new Float32Array(width * height * 4); // 假设是RGBA格式

// 创建Buffer
const imageBuffer = device.createBuffer({
  size: imageData.byteLength,
  usage: GPUBufferUsage.MAP_READ | GPUBufferUsage.MAP_WRITE | GPUBufferUsage.COPY_DST | GPUBufferUsage.STORAGE,
  mappedAtCreation: true,
});

// 将图片数据写入Buffer
new Float32Array(imageBuffer.getMappedRange()).set(imageData);
imageBuffer.unmap();

// 创建BindGroupLayout
const bindGroupLayout = device.createBindGroupLayout({
  entries: [
    {
      binding: 0,
      visibility: GPUShaderStage.COMPUTE,
      storageTexture: {
        access: "write-only",
        format: "rgba32float", // 假设是RGBA32Float格式
        viewDimension: "2d"
      }
    },
    {
      binding: 1,
      visibility: GPUShaderStage.COMPUTE,
      buffer: {
        type: "storage"
      }
    }
  ],
});

// 创建纹理
const texture = device.createTexture({
  size: [width, height],
  format: 'rgba32float',
  usage: GPUTextureUsage.STORAGE_BINDING | GPUTextureUsage.TEXTURE_BINDING
});

const textureView = texture.createView();

// 创建BindGroup
const bindGroup = device.createBindGroup({
  layout: bindGroupLayout,
  entries: [
    {
      binding: 0,
      resource: textureView
    },
    {
      binding: 1,
      resource: {
        buffer: imageBuffer
      }
    }
  ],
});

// 创建计算管线
const computePipeline = device.createComputePipeline({
  layout: device.createPipelineLayout({ bindGroupLayouts: [bindGroupLayout] }),
  compute: {
    module: device.createShaderModule({
      code: `
        @group(0) @binding(0) var outputTex : texture_storage_2d<rgba32float, write>;
        @group(0) @binding(1) var<storage, read_write> inputBuffer : array<f32>;

        @compute @workgroup_size(8, 8)
        fn main(@builtin(global_invocation_id) global_id : vec3<u32>) {
          let width : u32 = ${width}u;
          let height : u32 = ${height}u;

          let x : u32 = global_id.x;
          let y : u32 = global_id.y;

          if (x < width && y < height) {
            let index : u32 = (y * width + x) * 4u;

            // 简单的高斯模糊（示例）
            let sum : vec4<f32> = vec4(0.0, 0.0, 0.0, 0.0);
            let count : f32 = 0.0;

            for (var i : i32 = -1; i <= 1; i = i + 1) {
              for (var j : i32 = -1; j <= 1; j = j + 1) {
                let nx : i32 = i32(x) + i;
                let ny : i32 = i32(y) + j;

                if (nx >= 0 && nx < i32(width) && ny >= 0 && ny < i32(height)) {
                  let nIndex : u32 = (u32(ny) * width + u32(nx)) * 4u;
                  sum = sum + vec4(inputBuffer[nIndex], inputBuffer[nIndex + 1u], inputBuffer[nIndex + 2u], inputBuffer[nIndex + 3u]);
                  count = count + 1.0;
                }
              }
            }

            let avg : vec4<f32> = sum / count;

            textureStore(outputTex, vec2<i32>(i32(x), i32(y)), avg);
          }
        }
      `
    }),
  },
});

// 创建命令编码器
const commandEncoder = device.createCommandEncoder();

// 创建计算通道
const passEncoder = commandEncoder.beginComputePass();
passEncoder.setPipeline(computePipeline);
passEncoder.setBindGroup(0, bindGroup);
passEncoder.dispatchWorkgroups(Math.ceil(width / 8), Math.ceil(height / 8)); // 根据workgroup大小计算dispatch数量
passEncoder.end();

// 提交命令
const commandBuffer = commandEncoder.finish();
device.queue.submit([commandBuffer]);

// 等待计算完成
await device.queue.onSubmittedWorkDone();

// 将结果拷贝回CPU (如果需要)
const readBuffer = device.createBuffer({
  size: imageData.byteLength,
  usage: GPUBufferUsage.MAP_READ | GPUBufferUsage.COPY_DST,
});

const copyEncoder = device.createCommandEncoder();
copyEncoder.copyTextureToBuffer(
  { texture: texture, origin: [0, 0, 0] },
  { buffer: readBuffer, bytesPerRow: width * 4 * 4, rowsPerImage: height },
  [width, height, 1]
);

const copyCommandBuffer = copyEncoder.finish();
device.queue.submit([copyCommandBuffer]);
await device.queue.onSubmittedWorkDone();

await readBuffer.mapAsync(GPUMapMode.READ);
const copyArrayBuffer = readBuffer.getMappedRange();
const resultData = new Float32Array(copyArrayBuffer);

readBuffer.unmap();

// 现在 resultData 包含了处理后的图片数据
console.log("Processing complete!");

代码解释：

我们创建了一个STORAGE类型的Buffer imageBuffer，并使用MAP_READ和MAP_WRITE flag，尝试将其分配到统一内存区域。
Shader中，我们使用@group(0) @binding(1) var<storage, read_write> inputBuffer : array<f32>;来访问该Buffer。
计算完成后，如果需要，我们可以将处理后的数据拷贝回CPU内存。但是，如果imageBuffer确实分配到了统一内存区域，那么CPU可以直接访问该Buffer，而无需拷贝。

如何验证是否使用了统一内存？

很遗憾，WebGPU API并没有提供直接的方法来判断某个Buffer是否分配到了统一内存区域。但是，我们可以通过性能测试来间接判断。

测试方法：
- 创建两个Buffer：一个使用MAP_READ和MAP_WRITE flag，另一个不使用。
- 分别对这两个Buffer进行读写操作，并记录时间。
- 如果使用MAP_READ和MAP_WRITE flag的Buffer性能明显高于另一个Buffer，那么很可能使用了统一内存。

总结：

统一内存是WebGPU中一个非常重要的概念，它可以大大提高CPU和GPU之间的数据交换效率。虽然WebGPU API并没有强制要求使用统一内存，但是我们可以通过合理地使用GPUBufferUsage来影响驱动程序的内存分配策略，从而尽可能地利用统一内存的优势。

表格总结：

特性	传统CPU/GPU架构	统一内存架构
内存空间	独立	共享
数据拷贝	需要	不需要
编程复杂度	高	低
内存利用率	低	高
硬件要求	低	高
性能	低	高

结束语：

好了，今天的讲座就到这里。希望大家对WebGPU中的统一内存有了更深入的了解。记住，统一内存就像你的卧室小冰箱，用好了能让你爽歪歪！感谢各位的观看，下次再见！祝大家编程愉快，Bug少少！

发表回复 取消回复

发表回复取消回复