JS `WebAssembly` `Pointers` 与内存布局：与 C/C++ 互操作的陷阱 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

咳咳，各位观众老爷们，大家好！今天咱们来聊聊JavaScript、WebAssembly、指针，以及它们勾搭在一起的时候，会遇到的那些让人头疼，又不得不面对的“互操作陷阱”。

开场白：WebAssembly，JS 的好基友？

话说这WebAssembly（简称Wasm），自从出道以来，就被捧上了天，说是Web的未来。这玩意儿确实厉害，跑得飞快，特别适合做一些计算密集型的工作，比如游戏引擎、图像处理、音视频编码等等。

但是，Wasm毕竟是个新来的，在浏览器里还得靠着JavaScript（简称JS）罩着。JS负责加载、编译Wasm模块，然后才能调用Wasm里面的函数。所以，JS和Wasm的关系，就像一对好基友，互相配合，才能把事情办漂亮。

但是，基友之间也有可能闹矛盾。尤其是在涉及到内存管理和指针的时候，那简直就是“友谊的小船说翻就翻”。

第一幕：内存，内存，还是内存！

首先，咱们得搞清楚一个概念：Wasm模块有自己的线性内存（Linear Memory）。这块内存就像一个大数组，Wasm可以在里面随便折腾，读写数据。但是，这块内存是和JS隔离开的！JS想访问Wasm的内存，就得通过一些特殊的手段。

这就好像你住在一个小区，Wasm住A栋，JS住B栋。你想去A栋找Wasm玩，不能直接穿墙过去，得走大门才行。

第二幕：指针，危险的信号！

在C/C++里，指针简直就是家常便饭。你想操作内存，就得靠指针。Wasm也是一样，如果你的Wasm模块是用C/C++编译出来的，那么里面肯定少不了指针的身影。

但是，指针在JS里可不是什么好东西。JS没有指针的概念，它只有对象引用。所以，当Wasm把一个指针扔给JS的时候，JS压根不知道这是个啥玩意儿。

这就好比你给JS扔了一串乱码，JS一脸懵逼：“这是啥？能吃吗？”

第三幕：互操作的正确姿势

那么，JS怎么才能正确地操作Wasm的内存呢？答案就是：通过Wasm提供的API。

Wasm提供了一些API，可以让JS读取和写入Wasm的线性内存。这些API就像是小区大门的保安，JS只能通过保安才能进入A栋。

下面咱们来看一个例子：

// C++ 代码 (example.cpp)
#include <iostream>

extern "C" {
  int* create_array(int size) {
    int* arr = new int[size];
    for (int i = 0; i < size; ++i) {
      arr[i] = i * 2;
    }
    return arr;
  }

  int get_element(int* arr, int index) {
    return arr[index];
  }

  void free_array(int* arr) {
    delete[] arr;
  }
}

这段C++代码定义了三个函数：

create_array(int size)：创建一个大小为size的整数数组，并初始化数组元素。返回数组的首地址（指针）。
get_element(int* arr, int index)：获取数组arr中索引为index的元素的值。
free_array(int* arr)：释放数组arr占用的内存。

接下来，咱们把这段C++代码编译成Wasm模块：

emcc example.cpp -o example.wasm -s EXPORTED_FUNCTIONS="['_create_array', '_get_element', '_free_array']" -s ALLOW_MEMORY_GROWTH=1 -s MODULARIZE=1 -s 'EXPORT_NAME="ExampleModule"'

这条命令会生成一个example.wasm文件和一个example.js文件。example.js文件负责加载和初始化Wasm模块。

现在，咱们来看看JS代码怎么调用Wasm模块：

// JavaScript 代码
async function loadWasm() {
  const module = await ExampleModule(); //注意这里使用了上边编译时指定的 EXPORT_NAME

  const create_array = module.cwrap('create_array', 'number', ['number']);
  const get_element = module.cwrap('get_element', 'number', ['number', 'number']);
  const free_array = module.cwrap('free_array', null, ['number']);

  const arraySize = 5;
  const arrayPointer = create_array(arraySize);

  console.log("Array pointer:", arrayPointer);

  for (let i = 0; i < arraySize; i++) {
    const element = get_element(arrayPointer, i);
    console.log(`Element at index ${i}: ${element}`);
  }

  free_array(arrayPointer); // 重要：释放内存！
}

loadWasm();

这段JS代码做了以下几件事：

加载Wasm模块。这里假设你使用了Emscripten的MODULARIZE选项，它会生成一个Promise，resolve为一个模块对象。
使用module.cwrap创建JS函数，用于调用Wasm的函数。cwrap函数会帮你处理类型转换，让JS可以像调用普通函数一样调用Wasm函数。
调用create_array函数，创建一个大小为5的整数数组。返回的是一个整数，表示数组在Wasm线性内存中的地址（指针）。
循环遍历数组，调用get_element函数获取每个元素的值。
调用free_array函数释放数组占用的内存。这一点非常重要！ 如果你不释放内存，就会造成内存泄漏。

重点解析：cwrap的妙用

cwrap是Emscripten提供的一个非常有用的函数。它可以把一个C/C++函数包装成一个JS函数，方便JS调用。

cwrap函数的语法如下：

module.cwrap(functionName, returnType, argumentTypes);

functionName：C/C++函数的名称（字符串）。
returnType：C/C++函数的返回值类型（字符串）。
argumentTypes：C/C++函数的参数类型（字符串数组）。

常用的类型字符串有：

'number'：表示整数或浮点数。
'string'：表示字符串。
null：表示void类型。

第四幕：互操作的陷阱

虽然我们已经学会了如何正确地操作Wasm的内存，但是仍然有很多陷阱等着我们。

内存泄漏： 如果你在Wasm里分配了内存，但是没有及时释放，就会造成内存泄漏。Wasm的内存泄漏和JS的内存泄漏不一样，JS的内存泄漏可以通过垃圾回收机制来解决，但是Wasm的内存泄漏只能手动释放。
类型不匹配： JS和Wasm的类型系统不一样。如果你在调用Wasm函数的时候，传递了错误的参数类型，可能会导致程序崩溃。
越界访问： 如果你在JS里访问Wasm线性内存的时候，越界访问了，可能会导致程序崩溃。
悬挂指针： 如果你在Wasm里释放了一块内存，但是在JS里仍然持有指向这块内存的指针，那么这个指针就变成了悬挂指针。如果你继续使用这个指针，可能会导致程序崩溃。
字符串的坑： C/C++的字符串是以null结尾的字符数组，而JS的字符串是Unicode字符串。如果你想在JS和Wasm之间传递字符串，需要进行一些特殊的处理。可以使用stringToUTF8和UTF8ToString这两个Emscripten提供的函数来进行字符串的转换。

第五幕：实战演练：字符串传递

咱们来举个例子，看看如何在JS和Wasm之间传递字符串：

// C++ 代码 (string_example.cpp)
#include <iostream>
#include <string>

extern "C" {
  char* create_string(const char* str) {
    std::string cpp_str(str);
    char* new_str = new char[cpp_str.length() + 1];
    strcpy(new_str, cpp_str.c_str());
    return new_str;
  }

  void free_string(char* str) {
    delete[] str;
  }

  const char* get_greeting() {
      return "Hello from WASM!";
  }
}

// JavaScript 代码
async function loadStringWasm() {
  const module = await ExampleModule();

  const create_string = module.cwrap('create_string', 'number', ['string']);
  const free_string = module.cwrap('free_string', null, ['number']);
  const get_greeting = module.cwrap('get_greeting', 'string', []); // 直接返回字符串

  const jsString = "Hello from JavaScript!";
  const wasmStringPointer = create_string(jsString);

  console.log("WASM String Pointer:", wasmStringPointer);

  // Emscripten 会自动将 C 字符串转换为 JS 字符串
  const greeting = get_greeting();
  console.log("Greeting from WASM:", greeting);

  free_string(wasmStringPointer);
}

loadStringWasm();

在这个例子中，我们定义了一个create_string函数，它接收一个C字符串作为参数，然后在Wasm里创建一个新的字符串，并返回指向新字符串的指针。我们还定义了一个free_string函数，用于释放字符串占用的内存。get_greeting函数直接返回一个硬编码的字符串。

在JS代码中，我们使用cwrap函数把create_string和free_string包装成JS函数。然后，我们调用create_string函数，把一个JS字符串传递给Wasm。最后，我们调用free_string函数释放字符串占用的内存。对于get_greeting，因为返回类型是string，Emscripten会自动将C字符串转换为JS字符串。

第六幕：总结与展望

今天，咱们聊了聊JS、WebAssembly、指针，以及它们互操作的时候会遇到的各种陷阱。希望大家能够记住以下几点：

Wasm模块有自己的线性内存，JS需要通过API才能访问。
指针在JS里不是什么好东西，要谨慎使用。
要及时释放Wasm里分配的内存，避免内存泄漏。
要注意类型匹配，避免程序崩溃。
要小心越界访问和悬挂指针。
字符串传递需要进行特殊处理。

总而言之，JS和Wasm的互操作是一个复杂的过程，需要我们小心谨慎。但是，只要我们掌握了正确的方法，就能充分发挥Wasm的性能优势，为Web应用带来更好的体验。

未来，随着WebAssembly的不断发展，相信JS和Wasm的互操作会变得更加简单、高效。让我们拭目以待！

最后，送给大家一句话：

“指针诚可贵，内存价更高。若为性能故，二者皆可抛（指谨慎使用）。”

谢谢大家！下课！

发表回复 取消回复

发表回复取消回复